Wie man corrwith() in pandas verwendet (mit beispielen)


Sie können die Funktion corrwith() in Pandas verwenden, um die paarweise Korrelation zwischen numerischen Spalten mit demselben Namen in zwei verschiedenen Pandas-DataFrames zu berechnen.

Diese Funktion verwendet die folgende grundlegende Syntax:

 df1. corrwith (df2)

Hinweis : Diese Funktion unterscheidet sich von der Funktion corr() , die die Korrelation zwischen zwei numerischen Spalten innerhalb desselben DataFrame berechnet.

Das folgende Beispiel zeigt, wie die Funktion corrwith() in der Praxis verwendet wird.

Beispiel: Verwendung von corrwith() in Pandas

Nehmen wir an, wir haben die folgenden zwei Panda-DataFrames:

 import pandas as pd

#create first DataFrame
df1 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [18, 22, 29, 25, 14, 11],
                    ' assists ': [4, 5, 5, 4, 8, 12],
                    ' rebounds ': [10, 6, 4, 6, 3, 5]})

print (df1)

  team points assists rebounds
0 to 18 4 10
1 B 22 5 6
2 C 29 5 4
3 D 25 4 6
4 E 14 8 3
5 F 11 12 5

#create second DataFrame
df2 = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F'],
                    ' points ': [22, 25, 27, 35, 25, 20],
                    ' assists ': [15, 13, 8, 8, 5, 8],
                    ' rebs ': [4, 11, 12, 8, 7, 10]})

print (df2)

  team points assists rebs
0 A 22 15 4
1 B 25 13 11
2 C 27 8 12
3 D 35 8 8
4 E 25 5 7
5 F 20 8 10

Mit der Funktion corrwith() können wir die Korrelation zwischen numerischen Spalten mit demselben Namen in den beiden DataFrames berechnen:

 #calculate correlation between numeric columns with same names in each DataFrame
df1. corrwith (df2)

points 0.677051
assists -0.478184
NaN rebounds
rebs NaN
dtype:float64

Aus dem Ergebnis können wir sehen:

  • Die Korrelation zwischen den Punktspaltenwerten der beiden DataFrames beträgt 0,677 .
  • Die Korrelation zwischen den Hilfsspaltenwerten in den beiden DataFrames beträgt -0,478 .

Da die Spaltennamen bounces und rebs nicht in beiden DataFrames vorhanden waren, wird für jede dieser Spalten ein NaN- Wert zurückgegeben.

Hinweis Nr. 1 : Standardmäßig berechnet die Funktion corrwith() den Pearson-Korrelationskoeffizienten zwischen Spalten. Sie können jedoch auch method=’kendall‘ oder method=’spearman‘ angeben, um anstelle der Korrelation einen anderen Koeffiziententyp zu berechnen.

Hinweis Nr. 2 : Die vollständige Dokumentation für die Funktion corrwith() finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

So berechnen Sie die Korrelation nach Gruppen in Pandas
So berechnen Sie die gleitende Korrelation bei Pandas
So berechnen Sie die Korrelation zwischen zwei Spalten in Pandas

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert