top of page

YOUTUBE KANALIMIZA GÖZ ATTINIZ MI? ARADIĞINIZ BİLGİ KANALIMIZDA OLABİLİR. TIKLAYINIZ.

Cohen’in Kappa Testi nedir? Nasıl hesaplanır?

Bu yazımızda, daha çok sağlık alanında ve ölçek geliştirme çalışmalarında kullanılan, bu nedenle diğer alanlarda yeteri kadar bilinmeyen ancak bilinmesinde fayda olan, yaptığınız çalışmalarda mutlaka işinize yarayacağını düşündüğümüz, dolayısıyla bilmenizi önemli gördüğümüz bir testi, Cohen’in Kappa Testi’ni anlatacağız. Öncelikle bu testin ne olduğunu ve ne işe yaradığını kısaca, en anlaşılır biçimde açıklayarak başlayalım, ardından hesaplanmasına ve diğer detaylara geçelim.


Cohen’in Kappa Testi nedir?

Cohen’in Kappa Testi’ni kısaca Kappa Testi olarak belirtiyoruz. Kappa Testi dediğimizde Cohen’in Kappa Testi anlaşılıyor. Farklı Kappa testleri de bulunuyor. Onları belirtirken özel olarak isimlerini de belirtiyoruz. Kappa Testi, “iki adet puanlayıcının bir konuda veya bir puanlayıcının iki ayrı zamanda yine bir konuda, aynı puanlama cetvelini veya kriterlerini kullanarak puanlama yapmaları halinde, bu puanlamaların veya puanlayıcıların uyum gösterip göstermediğini tespit etmek için kullanılan bir uyum testidir.”


Bu tanımı birkaç örnek ile açıklamaya çalışalım. İlk örneğimiz…

Örneğin, iki farklı hekimden 50 farklı hastayı değerlendirmesini istiyoruz. Bu değerlendirmede her bir hasta için hipertansiyon düzeyinin düşük, orta veya yüksek olarak belirtilmesini istiyoruz. Yani her hasta, iki hekim tarafından 3 seçenekten biri ile değerlendiriliyor ve bu tespitlerin uyum gösterip göstermediğini tespit etmek istiyoruz. İşte bu durumda Kappa Testi’ne başvuruyoruz.


Yalnız burada şuna dikkatinizi çekmek istiyoruz. Burada iki farklı değerlendirme arasındaki ilişkiye yani korelasyona bakmıyoruz. Sonuçlar arasındaki uyuma bakıyoruz. İlişki ve uyum birbirinden farklı konular. İlişki tespit edersek, birisi artarken diğeri de artmaktadır veya birisi artarken diğeri azalmaktadır gibi bir sonuç buluruz ve ilişkinin gücünü tespit ederiz, bir r değeri buluruz. Burada ise iki değerlendirme arasında uyum olup olmadığına bakıyoruz. Kaç tane değerlendirme birbiri ile aynı, kaç tane değerlendirme birbirinden farklı, aynı fikirde olma oranı nedir gibi sonuçlara ulaşmaya çalışıyoruz. Kappa testi, puanlamaların veya puanlayıcıların, uyum gösterip göstermediğini tespit etmek için kullanıyor.


İkinci örneğimiz ölçek geliştirme çalışmalarından olsun…

Örneğin, iki farklı uzmandan, hazırladığımız 20 soruluk bir ölçeğin maddelerini okumalarını ve “uygundur / uygun değildir” seçenekleri ile görüşlerini belirtmelerini istiyoruz. Yani 20 maddelik bir ölçeğimiz var. İki farklı uzman, bunları okuyacak ve uygun olup olmadıklarını değerlendirecekler. Biz de iki uzmanın ölçeğimiz üzerindeki uyum yani aynı fikirde olma oranından yola çıkarak ölçeğimizin güvenirliğini tespit edeceğiz. Çünkü bildirilen görüşlerin benzer oluşu ölçeğimizin güvenilir olduğunu gösterme yollarından birisidir. İşte bu durumda da yine Kappa Testi’ne başvuruyoruz.


Ya da Kappa Testi’ni iki farklı puanlayıcıda kullanmayabiliriz. Örnek verecek olursak…

20 futbolcunun, bir uzman tarafından, 1 hafta ara ile, başarılı / başarısız şeklinde değerlendirilmesi halinde bu değerlendirmelerin uyum gösterip göstermediğini tespit etmeyi Kappa Testi ile yapabiliriz.


Sonuç olarak, buraya kadar anlattıklarımızdan yola çıkarak şunları belirtebiliriz:

  1. Kappa Testi, Cohen tarafından geliştirilmiş bir testtir.

  2. Karşılaştırılan değerlendirmeler kategorik özellik göstermektedir, yani veriler sınıflama ölçme düzeyindedir.

  3. Kappa Testi, iki farklı puanlayıcının değerlendirmeleri veya bir puanlayıcının iki farklı zamandaki değerlendirmeleri arasındaki uyumu tespit etmek için kullanılmaktadır. Puanlayıcı sayısı ikiden fazla olursa veya bir puanlayıcının ikiden fazla zamanda değerlendirmesi olursa Kappa kullanılamamaktadır. Bu durumda “Fleiss Kappa Testi” kullanmamız gerekmektedir.


Şimdi bu özelliklerden sonra gelelim Kappa’nın en önemli özelliğine. Bu özellik şu:

Normalde iki puanlayıcının değerlendirmelerinin birbiri ile ne kadar uyum gösterdiğini herhangi bir teste gerek duymadan tespit edebiliriz. Şöyle ki; puanlayıcıların değerlendirmelerini yan yana yazarız. Aynı fikirde oldukları durumları sayarız. Bunun toplam içindeki oranını tespit ederiz. Ardından, örneğin %75 oranında uyum bulunmaktadır diyebiliriz.


Peki o zaman Kappa’ya ne gerek var?

Kappa’yı kullanıyoruz.

Çünkü Kappa, bu uyum içinden rastgele çakışmış olabilecekleri çıkarıyor.

Yani bunun içinde rastgele çakışmış olanlar olabilir, bunları bu uyumun içinden çıkarmalıyız diyor. Uyum oranı olarak sadece, gerçekten uyum gösterenler kalıyor. Kappa’nın temel katkısı bu. O zaman bu uyum içerisindeki rastgele uyum gösterenlerin çıkarılması gerekmektedir. Bunun yapılabilmesi için gereken de dahil edilerek Cohen tarafından bir formül geliştirilmiştir. Bu formül şöyledir:





Bu formülde, Pr (o) iki puanlayıcının az önce belirttiğimiz çıplak uyumunu göstermektedir. Puanlayıcılar kaç değerlendirmede aynı fikirde olduklarını göstermektedir. Pr (e) ise rastgele olabilecek uyumu yani çakışmayı ifade etmektedir. Burada gözlenen uyumdan, rastgele olma ihtimali olan uyumu çıkarıyoruz ve buradaki işlemleri yapıyoruz. Bu durumda iki farklı değere ihtiyacımız bulunmaktadır: Pr (o) ve Pr (e). Buradan sonrasını bir örnek üzerinden yapalım. Daha kolay anlaşılacaktır. Bu örneği ve fazlasını aşağıdaki videomuzda bulabilirsiniz.


Peki bulduğumuz bu değer ne anlama geliyor?

Bu değer her zaman –1 ile +1 arasında değişen bir değer olmaktadır. k=-1 ise iki gözlemcinin değerlendirmelerinin tamamı birbirinin tersidir. k=0 ise iki gözlemci arasındaki uyum sadece şansa bağlıdır. k=+1 ise iki gözlemcinin değerlendirmelerinin tamamı birbiri ile aynıdır/uyumludur. Dolayısıyla 0’ın üzerinde değerler olmasını bekliyoruz. Sonucun 1’e yaklaşması ile uyum artıyor. Değerlendirme için yaygın olan iki sınıflandırma bulunmaktadır. Bunlar aşağıda verilmiştir.


McHugh’a (2012) göre,

0,00-0,20: Uyum yok

0,21-0,39: Minimal düzeyde uyum

0,40-0,59: Zayıf düzeyde uyum

0,60-0,79: Orta düzeyde uyum

0,80-0,90: Güçlü düzeyde uyum

0,90< : Neredeyse mükemmel uyum


Landis ve Koch’a (1977) göre,

<0,00: Kötü uyum

0,00-0,20: Zayıf düzeyde uyum

0,21-0,40: Ortanın altı düzeyde uyum

0,41-0,60: Orta düzeyde uyum

0,61-0,80: Önemli düzeyde uyum

0,81-1,00: Neredeyse mükemmel uyum


Kaynaklar:

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1), 37-46.

McHugh, M. L. (2012). Interrater reliability: the kappa statistic. Biochemia Medica, 22(3), 276-282.

Landis, J. R., & Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, (33), 159-174.

bottom of page