İstatistik Dersleri: Ders 44
Geçen dersimizde, veri setinde en yüksek ve en düşük değerler arasındaki farkı gösteren açıklık kavramını işlemiştik. Ancak açıklık, sadece uç değerleri dikkate aldığı için verilerin daha ayrıntılı dağılımını anlamak konusunda yetersiz kalabilir. Bu dersimizde, verilerin dağılımını daha kapsamlı incelememizi sağlayan çeyrekler (kartiller) ve yüzdelikler konusuna odaklanacağız. Çeyrekler, veri setini dört eşit parçaya bölerek, verilerin dağılımı hakkında daha fazla bilgi sunar. Ayrıca, çeyrekler arası açıklık (ÇAA) kavramını da ele alacağız. Yüzdelikler ise bir sonraki dersimize kalacak.
Çeyrekler (Kartiller) Nedir?
Çeyrekler, veri setindeki değerleri dört eşit parçaya bölen ve veri dağılımını bu dört parçada gösteren merkezi dağılım ölçüleridir. Küçükten büyüğe doğru sıralanmış bir veri setinde üç ana çeyrek değeri bulunur:
Birinci Çeyrek (Ç1): Verilerin %25’ini alt kısmında bırakır, en küçük değer ile ortanca (medyan) değer arasında yer alır.
İkinci Çeyrek (Ç2): Aynı zamanda medyan olarak bilinir ve veri setini %50-%50 oranında böler.
Üçüncü Çeyrek (Ç3): Verilerin %75'ini kapsar ve ortanca ile en büyük değer arasında bulunur.
Bu çeyrekler, veri setini daha iyi anlamamızı sağlar ve verilerin hangi bölümlerde yoğunlaştığını gösterir.
Bir örnek üzerinden inceleyelim:
Bir veri setimiz olsun: 10, 10, 11, 12, 14, 15, 18, 18, 19, 24, 25.
Bu veri setinde, çeyrekleri bulmak için aşağıdaki adımları izleyebiliriz.
Birinci Çeyrek (Ç1):
Ç1, veri setinin en alt %25’lik kısmını belirleyen değerdir.
Ç1 hesaplamak için veri sayısının %25’ini buluruz: 0,25 x 11 = 2,75. Bu sonucu en yakın tam sayıya yuvarlayarak 3. sıradaki değeri alırız.
Ç1 = 11
İkinci Çeyrek (Ç2) (Medyan):
Ç2, veri setinin %50’lik kısmını belirler ve veri setinin ortanca değeri olan 6. sıradaki sayıdır.
Ç2 = 15
Üçüncü Çeyrek (Ç3):
Ç3, veri setinin %75’ini belirleyen değerdir.
Ç3 hesaplamak için %75’e denk gelen değeri buluruz: 0,75 x 11 = 8,25. Bu sonucu en yakın tam sayıya yuvarlayarak 9. sıradaki değeri alırız.
Ç3 = 19
Bu durumda, verilerin %25, %50 ve %75 noktalarını gösteren çeyrek değerleri sırasıyla Ç1 = 11, Ç2 = 15 ve Ç3 = 19 olarak bulunur.
Yukarıdaki hesaplamalarda; sonuç tam sayı çıkarsa, bu sayı ile bir fazlası alınmalı ve veri seti içerisinde bu sıralarda yer alan verilerin aritmetik ortalaması hesaplanmalıdır. Sonuç tam sayı çıkmazsa, sonuçtan büyük en yakın tam sayı alınmalı ve veri seti içerisinde bu sırada yer alan veri seçilmelidir. |
Çeyreklerin Kutu Grafik Üzerinde Gösterimi
Çeyrekler, verilerin dağılımını görselleştirmek için sıklıkla kutu grafik ile gösterilir. Kutu grafik, bir veri setindeki çeyrek değerleri, çeyrekler arası açıklık ve uç değerler hakkında hızlıca bilgi sağlar. Kutu grafikte:
Alt sınır (minimum), veri setindeki en küçük değeri,
Ç1, Ç2 (medyan) ve Ç3, çeyrekleri,
Üst sınır (maksimum) ise en büyük değeri ifade eder.
Bu grafiğin ortasında, veri setinin medyan (ortanca) değeri (Ç2) yer alır. Grafik, veri setinin genişliğini, yoğunlaştığı alanları ve uç değerleri görsel olarak anlamamıza yardımcı olur.
Çeyrekler Arası Açıklık (ÇAA)
Çeyrekler arası açıklık (ÇAA), veri setinde üçüncü çeyrek (Ç3) ile birinci çeyrek (Ç1) arasındaki farktır ve verilerin yayılımını anlamada kullanılır. ÇAA şu formülle hesaplanır:
ÇAA = Ç3 - Ç1
Örneğin, yukarıdaki veri setinde Ç3 = 19 ve Ç1 = 11 olduğuna göre:
ÇAA = 19 - 11 = 8
Bu değer, veri setinin orta %50’sindeki değerlerin ne kadar geniş bir alana yayıldığını gösterir. Çeyrekler arası açıklık, uç değerlerin etkisini ortadan kaldırarak veri setinin daha gerçekçi bir yayılım ölçüsünü sağlar.
Çeyreklerin ve Çeyrekler Arası Açıklığın Özellikleri
Çeyrekler ve ÇAA, merkezi dağılım hakkında bilgi verirken bazı önemli özelliklere sahiptir:
Veri Yoğunluğu Hakkında Bilgi Sunar: Çeyrekler, verilerin hangi aralıklarda yoğunlaştığını ve verilerin belirli bir kısmının ne kadar geniş alana yayıldığını gösterir.
Uç Değerlere Karşı Daha Az Hassas: ÇAA, veri setindeki uç değerlerin etkisinden kaçınarak ortada kalan %50’lik kısmı inceler.
Dağılımın Homojenliğini Gösterir: ÇAA’nın düşük bir değer olması, verilerin ortalama etrafında yoğunlaştığını gösterirken, yüksek bir ÇAA değeri daha geniş bir yayılımı işaret eder.
Örnek Soru: Çeyrek ve Çeyrekler Arası Açıklık Hesaplama
Veri Seti: 2, 3, 6, 6, 7, 12, 15, 20 (N = 8)
Bu veri setinde çeyrekleri ve çeyrekler arası açıklığı hesaplayalım.
Birinci Çeyrek (Ç1):0,25 x 8 = 2 → 2. ve 3. değerlerin ortalaması alınır → Ç1 = (3 + 6) / 2 = 4,5
İkinci Çeyrek (Ç2) (Medyan):0,50 x 8 = 4 → 4. ve 5. değerlerin ortalaması alınır → Ç2 = (6 + 7) / 2 = 6,5
Üçüncü Çeyrek (Ç3):0,75 x 8 = 6 → 6. ve 7. değerlerin ortalaması alınır → Ç3 = (12 + 15) / 2 = 13,5
Çeyrekler Arası Açıklık (ÇAA):ÇAA = Ç3 - Ç1 → ÇAA = 13,5 - 4,5 = 9
Bu örnek üzerinden, verilerin ortalama etrafındaki dağılımını çeyrek değerlerle ve çeyrekler arası açıklıkla kolayca analiz edebiliriz. Bu derste, çeyrekler (kartiller) ve çeyrekler arası açıklık gibi merkezi dağılım ölçülerinin veri analizinde nasıl kullanıldığını gördük. Bir sonraki dersimizde, veri setini daha ayrıntılı bölümlere ayıran yüzdelikler ve desiller gibi dağılım ölçülerini ele alacağız.
Not: Bu yazı, doçent bir hocamız tarafından kaleme alınmıştır. Ticari olarak yayınlanamaz. (c) Her hakkı saklıdır.