Cara menghitung korelasi antara dua kolom di pandas


Anda dapat menggunakan sintaks berikut untuk menghitung korelasi antara dua kolom di pandas DataFrame:

 df[' column1 ']. corr (df[' column2 '])

Contoh berikut menunjukkan cara menggunakan sintaksis ini dalam praktiknya.

Contoh 1: Hitung korelasi antara dua kolom

Kode berikut menunjukkan cara menghitung korelasi antar kolom di pandas DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view first five rows of DataFrame
df. head ()

        points assists rebounds
0 25 5 11
1 12 7 8
2 15 7 10
3 14 9 6
4 19 12 6

#calculate correlation between points and assists
df[' points ']. corr (df[' assists '])

-0.359384

Koefisien korelasinya sebesar -0,359 . Karena korelasi ini negatif, hal ini menunjukkan bahwa poin dan assist berkorelasi negatif.

Dengan kata lain, seiring bertambahnya nilai pada kolom poin, maka nilai pada kolom assist cenderung menurun.

Contoh 2: Hitung Signifikansi Korelasi

Untuk menentukan apakah koefisien korelasi signifikan secara statistik atau tidak, Anda dapat menggunakan fungsi pearsonr(x, y) dari perpustakaan SciPy .

Kode berikut menunjukkan cara menggunakan fungsi ini dalam praktiknya:

 import pandas as pd
from scipy. stats import pearsonr

#createDataFrame
df = pd. DataFrame ({' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#calculate p-value of correlation coefficient between points and assists
pearsonr(df[' points '], df[' assists '])

(-0.359384, 0.38192)

Nilai keluaran pertama menampilkan koefisien korelasi (-0,359384) dan nilai kedua menampilkan nilai p (0,38192) yang terkait dengan koefisien korelasi tersebut.

Karena nilai p tidak kurang dari α = 0,05, kami menyimpulkan bahwa korelasi antara poin dan assist tidak signifikan secara statistik.

Sumber daya tambahan

Cara Menghitung Korelasi Peringkat Spearman dengan Python
Cara menghitung korelasi parsial dengan Python
Cara Menghitung Korelasi Silang dengan Python

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *