Kategorik değişkenler arasındaki korelasyon nasıl hesaplanır?
Sürekli sayısal değişkenler arasındaki korelasyonu hesaplamak için sıklıkla Pearson korelasyon katsayısını kullanırız.
Ancak kategorik değişkenler yani aşağıdaki gibi ad veya etiket alan değişkenler arasındaki korelasyonu hesaplamak için farklı bir metrik kullanmamız gerekir:
- Medeni durum (bekar, evli, boşanmış)
- Sigara içme durumu (sigara içen, içmeyen)
- Göz rengi (mavi, kahverengi, yeşil)
Kategorik değişkenler arasındaki korelasyonu hesaplamak için yaygın olarak kullanılan üç ölçüm vardır:
1. Tetrakorik korelasyon: ikili kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.
2. Polikorik korelasyon: sıralı kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.
3. Cramer V: Nominal kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.
Aşağıdaki bölümlerde bu üç ölçümün her birinin nasıl hesaplanacağına dair bir örnek verilmektedir.
Metrik 1: Tetrakorik korelasyon
Tetrakorik korelasyon, ikili kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. İkili değişkenlerin yalnızca iki olası değerden birini alabilen değişkenler olduğunu unutmayın.
Tetrakorik korelasyon değeri -1 ile 1 arasında değişir; burada -1, güçlü bir negatif korelasyonu, 0, korelasyon olmadığını ve 1, güçlü bir pozitif korelasyonu belirtir.
Örneğin, cinsiyetin bir siyasi parti tercihiyle ilişkili olup olmadığını bilmek istediğimizi varsayalım. Bu yüzden 100 seçmenden oluşan basit rastgele bir örnek alıyoruz ve onlara siyasi parti tercihlerini soruyoruz.
Aşağıdaki tabloda anketin sonuçları sunulmaktadır:
Bu senaryoda tetrakorik korelasyonu kullanacağız çünkü her kategorik değişken ikilidir, yani her değişken yalnızca iki olası değer alabilir.
İki değişken arasındaki tetrakorik korelasyonu hesaplamak için R’de aşağıdaki kodu kullanabiliriz:
library (psych) #create 2x2 table data = matrix(c(19, 12, 30, 39), nrow= 2 ) #view table data #calculate tetrachoric correlation tetrachoric(data) tetrachoric correlation [1] 0.27
Tetrakorik korelasyon 0,27 olarak ortaya çıkıyor. Bu değerin oldukça düşük olması, cinsiyet ile siyasi parti tercihi arasında (varsa) zayıf bir ilişkinin olduğunu göstermektedir.
Metrik 2: Polikorik korelasyon
Polikorik korelasyon, sıralı kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. Sıralı değişkenlerin olası değerleri doğal bir sıraya sahip olan değişkenler olduğunu hatırlayın.
Polikorik korelasyon değeri -1 ila 1 arasında değişir; burada -1, güçlü bir negatif korelasyonu, 0, korelasyon olmadığını ve 1, güçlü bir pozitif korelasyonu belirtir.
Örneğin, iki farklı film derecelendirme kuruluşunun film derecelendirmeleri arasında yüksek bir korelasyon olup olmadığını bilmek istediğinizi varsayalım.
Her ajanstan 20 farklı filmi 1’den 3’e kadar bir ölçekte derecelendirmesini istiyoruz; 1 “kötü”yü, 2 “kötü”yü ve 3 “iyi”yi gösteriyor.
Aşağıdaki tablo sonuçları göstermektedir:
İki ajansın derecelendirmeleri arasındaki polikorik korelasyonu hesaplamak için R’de aşağıdaki kodu kullanabiliriz:
library (polycor) #define movie ratings x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2) y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3) #calculate polychoric correlation between ratings polychor(x, y) [1] 0.7828328
Polikorik korelasyon 0,78 olarak ortaya çıkıyor. Bu değer oldukça yüksektir ve her ajansın derecelendirmeleri arasında güçlü bir pozitif ilişki olduğunu göstermektedir.
Metrik 3: Cramer’in V’si
Cramer V, nominal kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. Nominal değişkenlerin kategori etiketleri taşıyan ancak doğal sıralaması olmayan değişkenler olduğunu unutmayın.
Cramer V’nin değeri 0 ila 1 arasında değişir; 0, değişkenler arasında hiçbir ilişkinin olmadığını, 1 ise değişkenler arasında güçlü bir ilişkinin olduğunu gösterir.
Örneğin göz rengi ile cinsiyet arasında bir ilişki olup olmadığını bilmek istediğimizi varsayalım. Bu nedenle 50 kişiyi sorguluyor ve aşağıdaki sonuçları elde ediyoruz:
Bu iki değişken için Cramer’in V’sini hesaplamak amacıyla R’de aşağıdaki kodu kullanabiliriz:
library (rcompanion) #create table data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 ) #view table data [,1] [,2] [,3] [1,] 6 8 12 [2,] 9 5 10 #calculate Cramer's V cramerV(data) Cramer V 0.1671
Cramer’in V’si 0,1671 olarak çıkıyor. Bu değerin oldukça düşük olması cinsiyet ile göz rengi arasında zayıf bir ilişkinin olduğunu göstermektedir.
Ek kaynaklar
Pearson Korelasyon Katsayısına Giriş
Tetrakorik korelasyona giriş
Kategorik veya niceliksel değişkenler: fark nedir?
Ölçüm seviyeleri: nominal, sıralı, aralık ve oran