Cara menggunakan corrwith() di pandas (dengan contoh)


Anda dapat menggunakan fungsi corrwith() di panda untuk menghitung korelasi berpasangan antara kolom numerik dengan nama yang sama di dua DataFrame panda yang berbeda.

Fungsi ini menggunakan sintaks dasar berikut:

 df1. corrwith (df2)

Catatan : Fungsi ini berbeda dengan fungsi corr() , yang menghitung korelasi antara dua kolom numerik dalam DataFrame yang sama.

Contoh berikut menunjukkan cara menggunakan fungsi corrwith() dalam praktiknya.

Contoh: Cara menggunakan corrwith() di Pandas

Mari kita asumsikan kita memiliki dua panda DataFrames berikut:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [18, 22, 29, 25, 14, 11],
                    ' assists ': [4, 5, 5, 4, 8, 12],
                    ' rebounds ': [10, 6, 4, 6, 3, 5]})

print (df1)

  team points assists rebounds
0 to 18 4 10
1 B 22 5 6
2 C 29 5 4
3 D 25 4 6
4 E 14 8 3
5 F 11 12 5

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [22, 25, 27, 35, 25, 20],
                    ' assists ': [15, 13, 8, 8, 5, 8],
                    ' rebs ': [4, 11, 12, 8, 7, 10]})

print (df2)

  team points assists rebs
0 A 22 15 4
1 B 25 13 11
2 C 27 8 12
3 D 35 8 8
4 E 25 5 7
5 F 20 8 10

Kita dapat menggunakan fungsi corrwith() untuk menghitung korelasi antara kolom numerik dengan nama yang sama di dua DataFrames:

 #calculate correlation between numeric columns with same names in each DataFrame
df1. corrwith (df2)

points 0.677051
assists -0.478184
NaN rebounds
rebs NaN
dtype:float64

Dari hasilnya kita dapat melihat:

  • Korelasi antara nilai kolom titik kedua DataFrames adalah 0.677 .
  • Korelasi antara nilai kolom pembantu di kedua DataFrames adalah -0.478 .

Karena nama kolom bouncing dan rebs tidak ada di kedua DataFrames, nilai NaN dikembalikan untuk masing-masing kolom ini.

Catatan #1 : Secara default, fungsi corrwith() menghitung koefisien korelasi Pearson antar kolom, namun Anda juga dapat menentukan method=’kendall’ atau method=’spearman’ untuk menghitung jenis koefisien yang berbeda, bukan korelasi.

Catatan #2 : Anda dapat menemukan dokumentasi lengkap untuk fungsi corrwith() di sini .

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Cara menghitung korelasi berdasarkan kelompok di Pandas
Cara menghitung korelasi geser pada panda
Cara menghitung korelasi antara dua kolom di Pandas

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *