So berechnen sie die korrelation nach gruppen in pandas
Sie können die folgende grundlegende Syntax verwenden, um die Korrelation zwischen zwei Variablen nach Gruppe in Pandas zu berechnen:
df. groupby (' group_var ')[[' values1 ',' values2 ']]. corr (). unstack (). iloc [:, 1 ]
Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.
Beispiel: Korrelation nach Gruppe in Pandas berechnen
Angenommen, wir haben den folgenden Pandas-DataFrame:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [2, 7, 9, 3, 12, 10, 14, 21]})
#view DataFrame
print (df)
Mit dem folgenden Code können wir die Korrelation zwischen Punkten und Assists , gruppiert nach Team, berechnen:
#calculate correlation between points and assists, grouped by team
df. groupby (' team ')[[' points ',' assists ']]. corr (). unstack (). iloc [:, 1 ]
team
At 0.603053
B 0.981798
Name: (points, assists), dtype: float64
Aus dem Ergebnis können wir sehen:
- Der Korrelationskoeffizient zwischen Punkten und Assists für Team A beträgt 0,603053 .
- Der Korrelationskoeffizient zwischen Punkten und Assists für Team B beträgt 0,981798 .
Da beide Korrelationskoeffizienten positiv sind, bedeutet dies, dass das Verhältnis zwischen Punkten und Assists für beide Teams positiv ist.
Das heißt, Spieler, die tendenziell mehr Punkte erzielen, neigen auch dazu, mehr Assists zu verzeichnen.
Verwandt: Was gilt als „starke“ Korrelation?
Beachten Sie, dass wir die Syntax verkürzen könnten, indem wir die Funktionen unstack und iloc nicht verwenden, aber die Ergebnisse sind hässlicher:
df. groupby (' team ')[[' points ',' assists ']]. corr ()
assist points
team
A points 1.000000 0.603053
assists 0.603053 1.000000
B points 1.000000 0.981798
assists 0.981798 1.000000
Diese Syntax erzeugt eine Korrelationsmatrix für beide Teams, die uns überschüssige Informationen liefert.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
So führen Sie eine GroupBy-Summe in Pandas durch
So verwenden Sie Groupby und Plot in Pandas
So zählen Sie eindeutige Werte mit GroupBy in Pandas