Cara menghitung korelasi antara dua kolom di pandas
Anda dapat menggunakan sintaks berikut untuk menghitung korelasi antara dua kolom di pandas DataFrame:
df[' column1 ']. corr (df[' column2 '])
Contoh berikut menunjukkan cara menggunakan sintaksis ini dalam praktiknya.
Contoh 1: Hitung korelasi antara dua kolom
Kode berikut menunjukkan cara menghitung korelasi antar kolom di pandas DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]}) #view first five rows of DataFrame df. head () points assists rebounds 0 25 5 11 1 12 7 8 2 15 7 10 3 14 9 6 4 19 12 6 #calculate correlation between points and assists df[' points ']. corr (df[' assists ']) -0.359384
Koefisien korelasinya sebesar -0,359 . Karena korelasi ini negatif, hal ini menunjukkan bahwa poin dan assist berkorelasi negatif.
Dengan kata lain, seiring bertambahnya nilai pada kolom poin, maka nilai pada kolom assist cenderung menurun.
Contoh 2: Hitung Signifikansi Korelasi
Untuk menentukan apakah koefisien korelasi signifikan secara statistik atau tidak, Anda dapat menggunakan fungsi pearsonr(x, y) dari perpustakaan SciPy .
Kode berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya:
import pandas as pd from scipy. stats import pearsonr #createDataFrame df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29], ' assists ': [5, 7, 7, 9, 12, 9, 9, 4], ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]}) #calculate p-value of correlation coefficient between points and assists pearsonr(df[' points '], df[' assists ']) (-0.359384, 0.38192)
Nilai keluaran pertama menampilkan koefisien korelasi (-0,359384) dan nilai kedua menampilkan nilai p (0,38192) yang terkait dengan koefisien korelasi tersebut.
Karena nilai p tidak kurang dari α = 0,05, kami menyimpulkan bahwa korelasi antara poin dan assist tidak signifikan secara statistik.
Sumber daya tambahan
Cara Menghitung Korelasi Peringkat Spearman dengan Python
Cara menghitung korelasi parsial dengan Python
Cara Menghitung Korelasi Silang dengan Python