So berechnen sie zusammenfassende statistiken für einen pandas dataframe


Sie können die folgenden Methoden verwenden, um zusammenfassende Statistiken für Variablen in einem Pandas-DataFrame zu berechnen:

Methode 1: Berechnen Sie zusammenfassende Statistiken für alle numerischen Variablen

 df. describe ()

Methode 2: Berechnen Sie zusammenfassende Statistiken für alle Zeichenfolgenvariablen

 df. describe (include=' object ')

Methode 3: Zusammenfassende Statistiken gruppiert nach einer Variablen berechnen

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Beispiel 1: Berechnen Sie zusammenfassende Statistiken für alle numerischen Variablen

Der folgende Code zeigt, wie Zusammenfassungsstatistiken für jede numerische Variable im DataFrame berechnet werden:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Wir können die folgenden zusammenfassenden Statistiken für jede der drei numerischen Variablen sehen:

  • count: die Anzahl der Werte ungleich Null
  • Durchschnitt : Der Durchschnittswert
  • std : Die Standardabweichung
  • min: der Mindestwert
  • 25 % : Der Wert beim 25. Perzentil
  • 50 % : Der Wert beim 50. Perzentil (auch der Median)
  • 75 % : Der Wert beim 75. Perzentil
  • max : Der Maximalwert

Beispiel 2: Berechnen Sie zusammenfassende Statistiken für alle Zeichenfolgenvariablen

Der folgende Code zeigt, wie Zusammenfassungsstatistiken für jede Zeichenfolgenvariable im DataFrame berechnet werden:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Wir können die folgenden zusammenfassenden Statistiken für die Zeichenfolgenvariable in unserem DataFrame sehen:

  • count : Die Anzahl der Werte ungleich Null
  • unique : Die Anzahl der eindeutigen Werte
  • oben: der häufigste Wert
  • freq : Die Anzahl der Werte, die am häufigsten vorkommen

Beispiel 3: Berechnen Sie nach einer Variablen gruppierte Zusammenfassungsstatistiken

Der folgende Code zeigt, wie der Durchschnittswert aller numerischen Variablen, gruppiert nach Teamvariablen , berechnet wird:

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Die Ausgabe zeigt den Durchschnittswert der Variablen Punkte , Assists und Rebounds , gruppiert nach Teamvariablen .

Beachten Sie, dass wir eine ähnliche Syntax verwenden können, um eine andere zusammenfassende Statistik zu berechnen, beispielsweise den Median:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Die Ausgabe zeigt den Medianwert der Punkte- , Assists- und Rebounds-Variablen an, gruppiert nach Teamvariable .

Hinweis : Die vollständige Dokumentation der Beschreibungsfunktion in Pandas finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Panda-Aufgaben ausführen:

So zählen Sie Gruppensichtungen bei Pandas
So finden Sie den Maximalwert pro Gruppe bei Pandas
So identifizieren Sie Ausreißer bei Pandas

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert