Regresyon analizinde uç değerler, veri setinin genel eğilimine uymayan, diğer gözlemlerden önemli ölçüde farklı olan değerlerdir. Bu değerler genellikle veri setinin merkezsel eğilimine göre (ortalama veya medyan gibi) çok büyük veya çok küçük değerlere sahip olan gözlemlerdir. Bu nedenle, analizin sonuçlarını yanıltabilir ve regresyon modelinin doğruluğunu olumsuz yönde etkileyebilirler. Modelin, yanlılığına ve sonuçların değişmesine yol açabilirler. Bundan dolayı regresyon analizinin, uç değerlerin tespiti ve temizlenmesinden sonra yapılması gerekmektedir.
Uç değer tespitinde kullanılabilecek yollardan birisi hata değerleri (residuals) üzerinden yapılan hesaplamalara dayanmaktadır. Hatalar üzerinden uç değerleri tespit etmek mümkündür. Çünkü normal dağılım göstermeyen hatalar, uç değer özelliği göstermektedir. Hata değerleri üzerinden yapılan hesaplamalar arasında öne çıkan ölçüler olarak z skoru kullanımı, Cook’s Distance (Aralığı), Mahalanobis Distance (Aralığı) ve Leverage (Kaldıraç) Değeri gelmektedir.
Z skoru, bir verinin ortalamadan ne kadar uzak olduğunu ifade eden bir ölçüdür. Verilerin dağılımı normal bir dağılıma sahipse, Z skoru, belirli bir veriyi bu normal dağılıma göre standart sapma birimleriyle ifade eder. Z skoru, verilerin standartlaştırılmasına yardımcı olur, böylece farklı veri setlerini karşılaştırmak daha kolay hale gelir.
Cook’s Distance (Aralığı), regresyon analizlerinde uç değerleri (aykırı verileri) tespit etmek için kullanılan bir ölçüdür. Uç değerler, genellikle diğer veri noktalarından önemli ölçüde farklı olan veri noktalarıdır. Bu tür veri noktaları, regresyon analizi sonuçlarını yanıltabilir veya etkileyebilir. Bu nedenle, Cook's Distance, bu uç değerleri bularak analiz dışında bırakmamıza ve analizi daha güvenilir hale getirmemize yardımcı olan bir ölçüdür. SPSS’te çok kolay bir şekilde hesaplanan bir değerdir.
Her bir gözlem değeri yani ölçüm için bir Cook’s Distance hesaplanır. Genel olarak 1’den büyük değerler, ilgili gözlem değerinin uç değer olduğunu gösterir.
Bazı kaynaklarda ise 4/n formülü (n= Toplam gözlem sayısı) üzerinden hesaplanan kritik değeri aşan sonuçlar uç değer olarak kabul edilir.
Mahalanobis Distance (Aralığı), regresyon analizlerinde uç değerleri (aykırı verileri) tespit etmek için kullanılan farklı bir ölçüdür. SPSS’te yine çok kolay bir şekilde hesaplanan bir değerdir. Her bir gözlem değeri yani ölçüm için bir Mahalanobis Distance hesaplanır.
Hesaplanan Mahalanobis Distance değeri, genellikle Ki-Kare Tablosu’ndaki belirli bir eşik değeri ile karşılaştırılır.
Tablo okunurken bağımsız değişken sayısı serbestlik derecesi olarak alınır. Bu serbestlik derecesinde 0,001 düzeyindeki değer eşik değer olarak kabul edilir. Mahalanobis Distance değeri bu eşikten büyük olan ölçümler uç değer olarak kabul edilir.
Leverage (Kaldıraç) Değeri, regresyon analizlerinde uç değerleri (aykırı verileri) tespit etmek için kullanılan farklı bir ölçüdür. Her bir gözlem değeri yani ölçüm için bir Leverage Değeri hesaplanır.
Hesaplanan Leverage Değeri’nin 2(k+1)/n ya da 3(k+1)/n değerinden (k= Bağımsız değişken sayısı) büyük olmaması beklenir.
Büyük olan değerler, uç değer olarak kabul edilir.
Konunun detaylarını yukarıdaki videomuzdan detaylı olarak dinleyebilirsiniz.