Cara melakukan uji korelasi dengan python (dengan contoh)


Salah satu cara untuk mengukur hubungan antara dua variabel adalah dengan menggunakan koefisien korelasi Pearson , yang mengukur hubungan linear antara dua variabel .

Itu selalu mengambil nilai antara -1 dan 1 di mana:

  • -1 menunjukkan korelasi linier negatif sempurna
  • 0 menunjukkan tidak ada korelasi linier
  • 1 menunjukkan korelasi linier positif sempurna

Untuk menentukan apakah koefisien korelasi signifikan secara statistik, Anda dapat menghitung skor-t dan nilai-p yang sesuai.

Rumus untuk menghitung t-score suatu koefisien korelasi (r) adalah:

t = r * √ n-2 / √ 1-r 2

Nilai p kemudian dihitung sebagai nilai p dua sisi yang sesuai untuk distribusi t dengan n-2 derajat kebebasan.

Contoh: Uji Korelasi dengan Python

Untuk menentukan apakah koefisien korelasi antara dua variabel signifikan secara statistik, Anda dapat melakukan uji korelasi dengan Python menggunakan fungsi pearsonr dari perpustakaan SciPy .

Fungsi ini mengembalikan koefisien korelasi antara dua variabel serta nilai p dua sisi.

Misalnya, kita memiliki dua tabel berikut dengan Python:

 #create two arrays
x = [3, 4, 4, 5, 7, 8, 10, 12, 13, 15]
y = [2, 4, 4, 5, 4, 7, 8, 19, 14, 10]

Kita dapat mengimpor fungsi pearsonr dan menghitung koefisien korelasi Pearson antara kedua tabel:

 from scipy. stats . stats import pearsonr

#calculation correlation coefficient and p-value between x and y
pearsonr(x, y)

(0.8076177030748631, 0.004717255828132089)

Berikut cara menafsirkan hasilnya:

  • Koefisien korelasi Pearson (r): 0,8076
  • Nilai p dua sisi: 0,0047

Koefisien korelasi yang mendekati 1 menunjukkan bahwa terdapat hubungan positif yang kuat antara kedua variabel.

Dan karena nilai p yang sesuai kurang dari 0,05, kami menyimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara kedua variabel.

Perhatikan bahwa kita juga dapat mengekstrak koefisien korelasi individu dan nilai p dari fungsi pearson :

 #extract correlation coefficient (rounded to 4 decimal places)
r = round(pearsonr(x, y)[ 0 ], 4)

print (r)

0.8076

#extract p-value (rounded to 4 decimal places) 
p = round(pearsonr(x, y)[ 1 ], 4)

print (p) 

0.0047

Nilai-nilai ini sedikit lebih mudah dibaca dibandingkan dengan keluaran fungsi pearsonr asli.

Sumber daya tambahan

Tutorial berikut memberikan informasi tambahan tentang koefisien korelasi:

Pengantar Koefisien Korelasi Pearson
Apa yang dianggap sebagai korelasi “kuat”?
Lima hipotesis korelasi Pearson

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *