Kategorik değişkenler arasındaki korelasyon nasıl hesaplanır?


Sürekli sayısal değişkenler arasındaki korelasyonu hesaplamak için sıklıkla Pearson korelasyon katsayısını kullanırız.

Ancak kategorik değişkenler yani aşağıdaki gibi ad veya etiket alan değişkenler arasındaki korelasyonu hesaplamak için farklı bir metrik kullanmamız gerekir:

  • Medeni durum (bekar, evli, boşanmış)
  • Sigara içme durumu (sigara içen, içmeyen)
  • Göz rengi (mavi, kahverengi, yeşil)

Kategorik değişkenler arasındaki korelasyonu hesaplamak için yaygın olarak kullanılan üç ölçüm vardır:

1. Tetrakorik korelasyon: ikili kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.

2. Polikorik korelasyon: sıralı kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.

3. Cramer V: Nominal kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır.

Aşağıdaki bölümlerde bu üç ölçümün her birinin nasıl hesaplanacağına dair bir örnek verilmektedir.

Metrik 1: Tetrakorik korelasyon

Tetrakorik korelasyon, ikili kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. İkili değişkenlerin yalnızca iki olası değerden birini alabilen değişkenler olduğunu unutmayın.

Tetrakorik korelasyon değeri -1 ile 1 arasında değişir; burada -1, güçlü bir negatif korelasyonu, 0, korelasyon olmadığını ve 1, güçlü bir pozitif korelasyonu belirtir.

Örneğin, cinsiyetin bir siyasi parti tercihiyle ilişkili olup olmadığını bilmek istediğimizi varsayalım. Bu yüzden 100 seçmenden oluşan basit rastgele bir örnek alıyoruz ve onlara siyasi parti tercihlerini soruyoruz.

Aşağıdaki tabloda anketin sonuçları sunulmaktadır:

Tetrakorik korelasyon

Bu senaryoda tetrakorik korelasyonu kullanacağız çünkü her kategorik değişken ikilidir, yani her değişken yalnızca iki olası değer alabilir.

İki değişken arasındaki tetrakorik korelasyonu hesaplamak için R’de aşağıdaki kodu kullanabiliriz:

 library (psych)

#create 2x2 table
data = matrix(c(19, 12, 30, 39), nrow= 2 )

#view table
data

#calculate tetrachoric correlation
tetrachoric(data)

tetrachoric correlation 
[1] 0.27

Tetrakorik korelasyon 0,27 olarak ortaya çıkıyor. Bu değerin oldukça düşük olması, cinsiyet ile siyasi parti tercihi arasında (varsa) zayıf bir ilişkinin olduğunu göstermektedir.

Metrik 2: Polikorik korelasyon

Polikorik korelasyon, sıralı kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. Sıralı değişkenlerin olası değerleri doğal bir sıraya sahip olan değişkenler olduğunu hatırlayın.

Polikorik korelasyon değeri -1 ila 1 arasında değişir; burada -1, güçlü bir negatif korelasyonu, 0, korelasyon olmadığını ve 1, güçlü bir pozitif korelasyonu belirtir.

Örneğin, iki farklı film derecelendirme kuruluşunun film derecelendirmeleri arasında yüksek bir korelasyon olup olmadığını bilmek istediğinizi varsayalım.

Her ajanstan 20 farklı filmi 1’den 3’e kadar bir ölçekte derecelendirmesini istiyoruz; 1 “kötü”yü, 2 “kötü”yü ve 3 “iyi”yi gösteriyor.

Aşağıdaki tablo sonuçları göstermektedir:

İki ajansın derecelendirmeleri arasındaki polikorik korelasyonu hesaplamak için R’de aşağıdaki kodu kullanabiliriz:

 library (polycor)

#define movie ratings
x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2)
y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3)

#calculate polychoric correlation between ratings
polychor(x, y)

[1] 0.7828328

Polikorik korelasyon 0,78 olarak ortaya çıkıyor. Bu değer oldukça yüksektir ve her ajansın derecelendirmeleri arasında güçlü bir pozitif ilişki olduğunu göstermektedir.

Metrik 3: Cramer’in V’si

Cramer V, nominal kategorik değişkenler arasındaki korelasyonu hesaplamak için kullanılır. Nominal değişkenlerin kategori etiketleri taşıyan ancak doğal sıralaması olmayan değişkenler olduğunu unutmayın.

Cramer V’nin değeri 0 ila 1 arasında değişir; 0, değişkenler arasında hiçbir ilişkinin olmadığını, 1 ise değişkenler arasında güçlü bir ilişkinin olduğunu gösterir.

Örneğin göz rengi ile cinsiyet arasında bir ilişki olup olmadığını bilmek istediğimizi varsayalım. Bu nedenle 50 kişiyi sorguluyor ve aşağıdaki sonuçları elde ediyoruz:

Bu iki değişken için Cramer’in V’sini hesaplamak amacıyla R’de aşağıdaki kodu kullanabiliriz:

 library (rcompanion)

#create table
data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 )

#view table
data

     [,1] [,2] [,3]
[1,] 6 8 12
[2,] 9 5 10

#calculate Cramer's V
cramerV(data)

Cramer V 
  0.1671

Cramer’in V’si 0,1671 olarak çıkıyor. Bu değerin oldukça düşük olması cinsiyet ile göz rengi arasında zayıf bir ilişkinin olduğunu göstermektedir.

Ek kaynaklar

Pearson Korelasyon Katsayısına Giriş
Tetrakorik korelasyona giriş
Kategorik veya niceliksel değişkenler: fark nedir?
Ölçüm seviyeleri: nominal, sıralı, aralık ve oran

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir