Pandas: wie man beschreiben() nach gruppen verwendet


Sie können die Funktion „beschreiben()“ verwenden, um beschreibende Statistiken für Variablen in einem Pandas-DataFrame zu generieren.

Sie können die folgende grundlegende Syntax verwenden, um die Funktion „beschreiben()“ mit der Funktion „groupby()“ in Pandas zu verwenden:

 df. groupby (' group_var ')[' values_var ']. describe ()

Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.

Beispiel: Verwenden Sie beschreiben() von Group in Pandas

Angenommen, wir haben den folgenden Pandas-DataFrame, der Informationen über Basketballspieler aus zwei verschiedenen Teams enthält:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [8, 12, 14, 14, 15, 22, 27, 24],
                   ' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})

#view DataFrame
print (df)

  team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12

Wir können die Funktion „beschreiben()“ mit der Funktion „groupby()“ verwenden, um die Werte in der Punktespalte für jedes Team zusammenzufassen:

 #summarize points by team
df. groupby (' team ')[' points ']. describe ()

count mean std min 25% 50% 75% max
team								
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Aus dem Ergebnis können wir für jedes Team folgende Werte für die Punktevariable erkennen:

  • count (Anzahl der Beobachtungen)
  • Durchschnitt (durchschnittlicher Punktwert)
  • std (Standardabweichung der Punktwerte)
  • min (Mindestpunktwert)
  • 25 % (25. Perzentil der Punkte)
  • 50 % (50. Perzentil (also Median) der Punkte)
  • 75 % (75. Perzentil der Punkte)
  • max (maximaler Punktwert)

Wenn Sie möchten, dass die Ergebnisse im DataFrame-Format angezeigt werden, können Sie das Argument reset_index() verwenden:

 #summarize points by team
df. groupby (' team ')[' points ']. describe (). reset_index ()

        team count mean std min 25% 50% 75% max
0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Die Teamvariable ist jetzt eine Spalte im DataFrame und die Indexwerte sind 0 und 1.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

Pandas: So berechnen Sie die kumulative Summe pro Gruppe
Pandas: So zählen Sie eindeutige Werte nach Gruppen
Pandas: So berechnen Sie die Korrelation nach Gruppen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert