Cara menghitung korelasi antar variabel kategori


Kita sering menggunakan koefisien korelasi Pearson untuk menghitung korelasi antara variabel numerik kontinu.

Namun kita perlu menggunakan metrik yang berbeda untuk menghitung korelasi antar variabel kategori, yaitu variabel yang mempunyai nama atau label seperti:

  • Status perkawinan (lajang, menikah, bercerai)
  • Status merokok (perokok, bukan perokok)
  • Warna mata (biru, coklat, hijau)

Ada tiga ukuran yang umum digunakan untuk menghitung korelasi antar variabel kategori:

1. Korelasi tetrakorik: digunakan untuk menghitung korelasi antar variabel kategori biner.

2. Korelasi polikorik: digunakan untuk menghitung korelasi antar variabel kategori ordinal.

3. Cramer’s V : digunakan untuk menghitung korelasi antar variabel kategori nominal.

Bagian berikut memberikan contoh cara menghitung masing-masing dari ketiga pengukuran ini.

Metrik 1: Korelasi tetrakorik

Korelasi tetrakorik digunakan untuk menghitung korelasi antar variabel kategori biner. Ingatlah bahwa variabel biner adalah variabel yang hanya dapat mengambil satu dari dua kemungkinan nilai.

Nilai korelasi tetrakorik berkisar antara -1 hingga 1, dimana -1 menunjukkan korelasi negatif kuat, 0 menunjukkan tidak ada korelasi, dan 1 menunjukkan korelasi positif kuat.

Misalnya, kita ingin mengetahui apakah gender dikaitkan dengan preferensi terhadap suatu partai politik atau tidak. Jadi kami mengambil sampel acak sederhana dari 100 pemilih dan menanyakan preferensi mereka terhadap sebuah partai politik.

Berikut tabel hasil surveinya:

Korelasi tetrakorik

Kami akan menggunakan korelasi tetrakorik dalam skenario ini karena setiap variabel kategori adalah biner, artinya setiap variabel hanya dapat mengambil dua kemungkinan nilai.

Kita dapat menggunakan kode berikut di R untuk menghitung korelasi tetrakorik antara dua variabel:

 library (psych)

#create 2x2 table
data = matrix(c(19, 12, 30, 39), nrow= 2 )

#view table
data

#calculate tetrachoric correlation
tetrachoric(data)

tetrachoric correlation 
[1] 0.27

Korelasi tetrakoriknya ternyata 0,27 . Nilai ini cukup rendah, yang menunjukkan bahwa terdapat hubungan yang lemah (jika ada) antara gender dan preferensi partai politik.

Metrik 2: Korelasi polikorik

Korelasi polikorik digunakan untuk menghitung korelasi antar variabel kategori ordinal. Ingatlah bahwa variabel ordinal adalah variabel yang nilai kemungkinannya memiliki tatanan alami.

Nilai korelasi polikorik berkisar antara -1 sampai 1, dimana -1 menunjukkan korelasi negatif kuat, 0 menunjukkan tidak ada korelasi, dan 1 menunjukkan korelasi positif kuat.

Misalnya, Anda ingin mengetahui apakah dua lembaga pemeringkat film berbeda memiliki korelasi yang tinggi antara rating film mereka.

Kami meminta setiap agensi untuk menilai 20 film berbeda dalam skala 1 hingga 3, dengan 1 menunjukkan “buruk”, 2 menunjukkan “buruk”, dan 3 menunjukkan “baik”.

Tabel berikut menunjukkan hasilnya:

Kita dapat menggunakan kode berikut di R untuk menghitung korelasi polikorik antara peringkat kedua agensi:

 library (polycor)

#define movie ratings
x <- c(1, 1, 2, 2, 3, 2, 2, 3, 2, 3, 3, 2, 1, 2, 2, 1, 1, 1, 2, 2)
y <- c(1, 1, 2, 1, 3, 3, 3, 2, 2, 3, 3, 3, 2, 2, 2, 1, 2, 1, 3, 3)

#calculate polychoric correlation between ratings
polychor(x, y)

[1] 0.7828328

Korelasi polikoriknya ternyata 0,78 . Nilai ini cukup tinggi, menunjukkan adanya hubungan positif yang kuat antara rating masing-masing lembaga.

Metrik 3: Cramer’s V

Cramer’s V digunakan untuk menghitung korelasi antar variabel kategori nominal. Ingatlah bahwa variabel nominal adalah variabel yang memiliki label kategori tetapi tidak memiliki tatanan alami.

Nilai Cramer’s V berkisar antara 0 sampai 1, dimana 0 menunjukkan tidak adanya hubungan antar variabel dan 1 menunjukkan adanya hubungan yang kuat antar variabel.

Misalnya, kita ingin mengetahui apakah ada korelasi antara warna mata dan jenis kelamin. Oleh karena itu kami menanyai 50 orang dan memperoleh hasil sebagai berikut:

Kita dapat menggunakan kode berikut di R untuk menghitung V Cramer untuk kedua variabel ini:

 library (rcompanion)

#create table
data = matrix(c(6, 9, 8, 5, 12, 10), nrow= 2 )

#view table
data

     [,1] [,2] [,3]
[1,] 6 8 12
[2,] 9 5 10

#calculate Cramer's V
cramerV(data)

Cramer V 
  0.1671

V Cramer ternyata 0,1671 . Nilai ini cukup rendah, menunjukkan lemahnya hubungan antara jenis kelamin dan warna mata.

Sumber daya tambahan

Pengantar Koefisien Korelasi Pearson
Pengantar korelasi tetrakorik
Variabel kategoris atau kuantitatif: apa bedanya?
Tingkatan pengukuran: nominal, ordinal, interval dan rasio

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *