Cara melakukan uji korelasi dengan python (dengan contoh)
Salah satu cara untuk mengukur hubungan antara dua variabel adalah dengan menggunakan koefisien korelasi Pearson , yang mengukur hubungan linear antara dua variabel .
Itu selalu mengambil nilai antara -1 dan 1 di mana:
- -1 menunjukkan korelasi linier negatif sempurna
- 0 menunjukkan tidak ada korelasi linier
- 1 menunjukkan korelasi linier positif sempurna
Untuk menentukan apakah koefisien korelasi signifikan secara statistik, Anda dapat menghitung skor-t dan nilai-p yang sesuai.
Rumus untuk menghitung t-score suatu koefisien korelasi (r) adalah:
t = r * √ n-2 / √ 1-r 2
Nilai p kemudian dihitung sebagai nilai p dua sisi yang sesuai untuk distribusi t dengan n-2 derajat kebebasan.
Contoh: Uji Korelasi dengan Python
Untuk menentukan apakah koefisien korelasi antara dua variabel signifikan secara statistik, Anda dapat melakukan uji korelasi dengan Python menggunakan fungsi pearsonr dari perpustakaan SciPy .
Fungsi ini mengembalikan koefisien korelasi antara dua variabel serta nilai p dua sisi.
Misalnya, kita memiliki dua tabel berikut dengan Python:
#create two arrays
x = [3, 4, 4, 5, 7, 8, 10, 12, 13, 15]
y = [2, 4, 4, 5, 4, 7, 8, 19, 14, 10]
Kita dapat mengimpor fungsi pearsonr dan menghitung koefisien korelasi Pearson antara kedua tabel:
from scipy. stats . stats import pearsonr #calculation correlation coefficient and p-value between x and y pearsonr(x, y) (0.8076177030748631, 0.004717255828132089)
Berikut cara menafsirkan hasilnya:
- Koefisien korelasi Pearson (r): 0,8076
- Nilai p dua sisi: 0,0047
Koefisien korelasi yang mendekati 1 menunjukkan bahwa terdapat hubungan positif yang kuat antara kedua variabel.
Dan karena nilai p yang sesuai kurang dari 0,05, kami menyimpulkan bahwa terdapat hubungan yang signifikan secara statistik antara kedua variabel.
Perhatikan bahwa kita juga dapat mengekstrak koefisien korelasi individu dan nilai p dari fungsi pearson :
#extract correlation coefficient (rounded to 4 decimal places) r = round(pearsonr(x, y)[ 0 ], 4) print (r) 0.8076 #extract p-value (rounded to 4 decimal places) p = round(pearsonr(x, y)[ 1 ], 4) print (p) 0.0047
Nilai-nilai ini sedikit lebih mudah dibaca dibandingkan dengan keluaran fungsi pearsonr asli.
Sumber daya tambahan
Tutorial berikut memberikan informasi tambahan tentang koefisien korelasi:
Pengantar Koefisien Korelasi Pearson
Apa yang dianggap sebagai korelasi “kuat”?
Lima hipotesis korelasi Pearson