Jak używać corrwith() w pandach (z przykładami)


Możesz użyć funkcji corrwith() w pandach, aby obliczyć korelację parami między kolumnami numerycznymi o tej samej nazwie w dwóch różnych ramkach DataFrame pand.

Ta funkcja wykorzystuje następującą podstawową składnię:

 df1. corrwith (df2)

Uwaga : ta funkcja różni się od funkcji corr() , która oblicza korelację między dwiema kolumnami liczbowymi w tej samej ramce danych.

Poniższy przykład pokazuje, jak w praktyce używać funkcji corrwith() .

Przykład: Jak używać corrwith() w Pandach

Załóżmy, że mamy następujące dwie ramki danych pandy:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [18, 22, 29, 25, 14, 11],
                    ' assists ': [4, 5, 5, 4, 8, 12],
                    ' rebounds ': [10, 6, 4, 6, 3, 5]})

print (df1)

  team points assists rebounds
0 to 18 4 10
1 B 22 5 6
2 C 29 5 4
3 D 25 4 6
4 E 14 8 3
5 F 11 12 5

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [22, 25, 27, 35, 25, 20],
                    ' assists ': [15, 13, 8, 8, 5, 8],
                    ' rebs ': [4, 11, 12, 8, 7, 10]})

print (df2)

  team points assists rebs
0 A 22 15 4
1 B 25 13 11
2 C 27 8 12
3 D 35 8 8
4 E 25 5 7
5 F 20 8 10

Możemy użyć funkcji corrwith() do obliczenia korelacji pomiędzy kolumnami numerycznymi o tych samych nazwach w dwóch ramkach DataFrame:

 #calculate correlation between numeric columns with same names in each DataFrame
df1. corrwith (df2)

points 0.677051
assists -0.478184
NaN rebounds
rebs NaN
dtype:float64

Z wyniku możemy zobaczyć:

  • Korelacja między wartościami kolumn punktowych dwóch ramek DataFrame wynosi 0,677 .
  • Korelacja pomiędzy wartościami kolumn pomocniczych w dwóch ramkach DataFrame wynosi -0,478 .

Ponieważ w obu ramkach DataFrame nie występowały nazwy kolumn i rebs , dla każdej z tych kolumn zwracana jest wartość NaN .

Uwaga nr 1 : Domyślnie funkcja corrwith() oblicza współczynnik korelacji Pearsona między kolumnami, ale można również określić metodę=’kendall’ lub metodę=’spearman’, aby zamiast korelacji obliczyć współczynnik innego typu.

Uwaga nr 2 : Pełną dokumentację funkcji corrwith() można znaleźć tutaj .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje na pandach:

Jak obliczyć korelację według grupy w Pandach
Jak obliczyć korelację przesuwną w pandach
Jak obliczyć korelację między dwiema kolumnami w Pandach

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *