İstatistik Dersleri: Ders 51
Veri analizi yaparken yalnızca verilerin yayılımını bilmek değil, dağılımın yönünü anlamak da önemlidir. İşte bu noktada, çarpıklık katsayısı (skewness) devreye girer. Çarpıklık katsayısı, bir veri setindeki ortalama, medyan (ortanca) ve mod arasındaki ilişkileri dikkate alarak verilerin ortalamaya göre hangi yöne eğilim gösterdiğini anlamamıza yardımcı olur. Bu ölçü, verilerin simetrik mi yoksa asimetrik mi olduğunu tespit etmemizi sağlar.
Merkezi dağılım ölçüleri, verilerin genel yayılımını tanımlarken, çarpıklık katsayısı dağılımın hangi yönde yoğunlaştığını belirtir. Örneğin, bir veri setinde veriler ortalamanın sağında mı yoksa solunda mı yoğunlaşmış? Dağılım sağa mı sola mı uzanıyor? Çarpıklık katsayısı bu sorulara cevap verebilir.
Çarpıklık (Katsayısı) Nedir?
Çarpıklık katsayısı (skewness), bir veri setinde yer alan ortalama, medyan ve mod değerlerinin konumlarına göre verilerin hangi yönde yoğunlaştığını gösteren bir ölçüdür. Çarpıklık sayesinde veri setinin simetrik olup olmadığını anlayabiliriz. Eğer veriler ortalama etrafında simetrik bir dağılım gösteriyorsa çarpıklık katsayısı 0 olur; bu da normal dağılımı ifade eder. Pozitif veya negatif çarpıklık ise, verilerin bir tarafında yoğunlaştığını gösterir.
Çarpıklık Türleri
Pozitif Çarpıklık: Veriler ortalamanın sağında yoğunlaşmıştır, yani yüksek değerler daha yaygındır.
Negatif Çarpıklık: Veriler ortalamanın solunda yoğunlaşmıştır, yani düşük değerler daha yaygındır.
Simetrik Dağılım (Çarpıklık = 0): Veriler ortalama etrafında eşit yoğunlukta dağılım göstermektedir.
Çarpıklık Katsayısı Nasıl Hesaplanır?
Sadece yukarıdaki açıklamayı okuyarak çarpıklık katsayısının ne olduğu ve ne işe yaradığını anlamak kolay değildir. Ancak; hesaplama, özellikler ve örneklerin incelenmesi sonucunda konunun kolayca anlaşılması sağlanacaktır.
Çarpıklık katsayısının hesaplanması için,
(I) verilerin aritmetik ortalamadan sapma değerlerini
(II) standart sapmanın üçüncü kuvvetlerini
içeren bir hesaplama kullanılmaktadır. Bu hesaplamada; her bir verinin aritmetik ortalamadan sapma değerleri toplanmakta ve bu toplam; eleman sayısı ile standart sapmanın üçüncü kuvvetinin çarpım sonucuna bölünmektedir.
Çarpıklık katsayısının bulunması ile ilgili bir örnek konunun daha kolay anlaşılmasını sağlayacaktır. Örneğin; 1, 2, 3, 4, 5 değerlerinden oluşan bir veri setinin çarpıklık katsayısını bulmak için,
1- Veriler aşağıdaki gibi bir tablo haline getirilmelidir:
x | µ | x - µ | (x - µ)2 | (x - µ)3 |
1 | 3 | -2 | 4 | -8 |
2 | 3 | -1 | 1 | -1 |
3 | 3 | 0 | 0 | 0 |
4 | 3 | 1 | 1 | 1 |
5 | 3 | 2 | 4 | 8 |
|
|
| = 10 | = 0 |
2- Yukarıdaki tablonun hazırlanması ve sapmaların kareleri ve küplerinin toplamının bulunmasından sonra yapılması gereken ise formül yardımıyla hesaplamaların yapılmasıdır. Buna göre şu formül uygulanır:
Formülün üst kısmında istenen, her bir değerin ortalamadan farkının üçüncü kuvvetlerinin toplamıdır. Bunu yukarıdaki tablonun en sağında 0 olarak bulduk.
Formülün alt kısmına geçtiğimizde ise öncelikle bize veri sayısı gerekiyor. 5 değerimiz var. Bu durumda N=5.
Sonrasında formülde standart sapmanın üçüncü kuvveti gerekiyor. Standart sapma hesaplandığında 1,41 çıkacaktır (Daha önceki derslerimizde anlatmıştık). 1,41’in üçüncü kuvveti yani formüldeki σ3 ise 2,83’tür. Böylece, formülde eksik bir değer kalmamıştır.
Buna göre; çarpıklık katsayısı 0/(5 x 2,83) yani 0’dır.
Sonuç ve Yorum
Çarpıklık katsayısının “0 (sıfır)” çıkması, verilerin ortalama etrafında simetrik olarak dağıldığı anlamına gelmektedir. Yani, en basit anlatımla ortalama, veri setinin tam ortasında yer almıştır (yukarıda “3” veri setinin tam ortasındadır) ve “ortalama değeri” aynı zamanda “ortanca değeri”dir (ortancanın verileri tam ortadan iki eşit parçaya bölen orta değer olduğunu hatırlayınız, ya da konuya dönerek tekrar yapınız). Bu nedenle, ortalamanın altında ve üstünde yer alan değerler ortalamadan eşit uzaklıklarda yer almışlar ve simetrik bir dağılım oluşmuştur (1, 2 ve 4, 5 ortalamadan eşit uzaklıklardadır).
Yukarıda bahsedilen simetrik dağılıma istatistikte “normal dağılım” adı verilmektedir ve bu konu istatistiğin önemli konularından birini oluşturmaktadır. Bu nedenle, normal dağılım konusuna sonraki yazılarda detaylı olarak yer verilecektir. Ancak; şimdilik bilinmesi gereken, normal dağılıma sahip olan bir veri setinin dağılımını gösteren eğrinin – simetriklikten dolayı – kusursuz bir çana benzer biçim aldığıdır. Bu nedenle, bu eğriye “çan eğrisi” adı verilmektedir. Ancak, ortaya çıkan bu çan eğrisi her zaman simetrik olmamakta, çanda sağa veya sola doğru uzamalar yani bozulmalar olabilmektedir.
Sonuç olarak, yukarıdaki örnekte yer alan “0 (sıfır)” sonucu bize; verilerin simetrik yani normal bir dağılıma sahip olduğunu yani verilerin dağılımında çarpıklık olmadığını ve dağılım eğrisinin kusursuz bir çana benzediğini ifade etmektedir.
Şimdi birkaç hesaplama daha yaparak konuyu pekiştirelim:
Örnek Soru 1:
0, 1, 3, 4, 5 değerlerinden oluşan bir veri setinin çarpıklık katsayısı ve durumu nedir?
Çözüm:
Veriler aşağıdaki gibi bir tablo haline getirilebilecektir:
X | µ | x - µ | (x - µ)2 | (x - µ)3 |
0 | 2,60 | -2,60 | 6,76 | -17,58 |
1 | 2,60 | -1,60 | 2,56 | -4,10 |
3 | 2,60 | 0,40 | 0,16 | 0,06 |
4 | 2,60 | 1,40 | 1,96 | 2,74 |
5 | 2,60 | 2,40 | 5,76 | 13,82 |
|
|
| = 17,20 | = -5,04 |
Yukarıdaki tablonun hazırlanması ve sapmaların kareleri ve küplerinin toplamının bulunmasından sonra yapılması gereken ise formül yardımıyla hesaplamaların yapılmasıdır.
N=5 ve standart sapma=1,85’tir.
1,85’in üçüncü kuvveti 6,38’dir. Böylece, formülde eksik bir değer kalmamıştır.
Buna göre; çarpıklık katsayısı –0,16’dır. Veriler sola doğru (negatif) çarpıktır.
Dikkat edilirse; ortalama (2,60) ortancanın (3) altındadır. Bu nedenle, sonuç sola doğru çarpık çıkmıştır. Ancak, çarpıklık çok büyük değildir.
Örnek Soru 2:
1, 2, 3, 4, 9 değerlerinden oluşan bir veri setinin çarpıklık katsayısı ve durumu nedir?
Çözüm:
Veriler aşağıdaki gibi bir tablo haline getirilebilecektir:
x | µ | x - µ | (x - µ)2 | (x - µ)3 |
1 | 3,80 | -2,80 | 7,84 | -21,95 |
2 | 3,80 | -1,80 | 3,24 | -5,83 |
3 | 3,80 | -0,80 | 0,64 | -0,51 |
4 | 3,80 | 0,20 | 0,04 | 0,01 |
9 | 3,80 | 5,20 | 27,04 | 140,61 |
|
|
| = 38,80 | = 112,32 |
N=5 ve standart sapma=2,79’dur.
2,79’un üçüncü kuvveti 21,62’dir. Böylece, formülde eksik bir değer kalmamıştır.
Buna göre; çarpıklık katsayısı 1,04’tür. Veriler sağa doğru (pozitif) çarpıktır.
Dikkat edilirse; ortalama (3,80) ortancanın (3) üstündedir. Bu nedenle, sonuç sağa doğru çarpık çıkmıştır. Çarpıklık, önceki örnekten daha büyüktür. Çünkü verilerden bir tanesi olan “9” çarpıklığı artırmıştır.
Örnek Soru 3:
1, 2, 2, 5, 5 değerlerinden oluşan bir veri setinin çarpıklık katsayısı ve durumu nedir?
Çözüm:
Veriler aşağıdaki gibi bir tablo haline getirilebilecektir:
x | µ | x - µ | (x - µ)2 | (x - µ)3 |
1 | 3,00 | -2,00 | 4,00 | -8,00 |
2 | 3,00 | -1,00 | 1,00 | -1,00 |
2 | 3,00 | -1,00 | 1,00 | -1,00 |
5 | 3,00 | 2,00 | 4,00 | 8,00 |
5 | 3,00 | 2,00 | 4,00 | 8,00 |
|
|
| = 14 | = 6 |
N=5 ve standart sapma=1,67’dir.
1,67’nin üçüncü kuvveti 4,69’dur. Böylece, formülde eksik bir değer kalmamıştır.
Buna göre; çarpıklık katsayısı 0,26’dır. Veriler sağa doğru (pozitif) çarpıktır.
Dikkat edilirse; ortalama (3) ortancanın (2) üstündedir. Bu nedenle, sonuç sağa doğru çarpık çıkmıştır. Çarpıklık, birinci örnekte olduğu gibi büyük değildir.
Bir sonraki yazımızda basıklık (kurtosis) kavramına da değineceğiz. Böylece verilerin yalnızca yayılımını değil, aynı zamanda dağılımın yoğunlaşma biçimini de analiz edebileceğiz.
Not: Bu yazı, doçent bir hocamız tarafından kaleme alınmıştır. Ticari olarak yayınlanamaz. (c) Her hakkı saklıdır.