So berechnen sie zusammenfassende statistiken für einen pandas dataframe

Von Dr. Benjamin Anderson Juli 20, 2023 Führung Keine Kommentare

Sie können die folgenden Methoden verwenden, um zusammenfassende Statistiken für Variablen in einem Pandas-DataFrame zu berechnen:

Methode 1: Berechnen Sie zusammenfassende Statistiken für alle numerischen Variablen

 df. describe ()

Methode 2: Berechnen Sie zusammenfassende Statistiken für alle Zeichenfolgenvariablen

 df. describe (include=' object ')

Methode 3: Zusammenfassende Statistiken gruppiert nach einer Variablen berechnen

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Beispiel 1: Berechnen Sie zusammenfassende Statistiken für alle numerischen Variablen

Der folgende Code zeigt, wie Zusammenfassungsstatistiken für jede numerische Variable im DataFrame berechnet werden:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Wir können die folgenden zusammenfassenden Statistiken für jede der drei numerischen Variablen sehen:

count: die Anzahl der Werte ungleich Null
Durchschnitt : Der Durchschnittswert
std : Die Standardabweichung
min: der Mindestwert
25 % : Der Wert beim 25. Perzentil
50 % : Der Wert beim 50. Perzentil (auch der Median)
75 % : Der Wert beim 75. Perzentil
max : Der Maximalwert

Beispiel 2: Berechnen Sie zusammenfassende Statistiken für alle Zeichenfolgenvariablen

Der folgende Code zeigt, wie Zusammenfassungsstatistiken für jede Zeichenfolgenvariable im DataFrame berechnet werden:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Wir können die folgenden zusammenfassenden Statistiken für die Zeichenfolgenvariable in unserem DataFrame sehen:

count : Die Anzahl der Werte ungleich Null
unique : Die Anzahl der eindeutigen Werte
oben: der häufigste Wert
freq : Die Anzahl der Werte, die am häufigsten vorkommen

Beispiel 3: Berechnen Sie nach einer Variablen gruppierte Zusammenfassungsstatistiken

Der folgende Code zeigt, wie der Durchschnittswert aller numerischen Variablen, gruppiert nach Teamvariablen , berechnet wird:

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Die Ausgabe zeigt den Durchschnittswert der Variablen Punkte , Assists und Rebounds , gruppiert nach Teamvariablen .

Beachten Sie, dass wir eine ähnliche Syntax verwenden können, um eine andere zusammenfassende Statistik zu berechnen, beispielsweise den Median:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Die Ausgabe zeigt den Medianwert der Punkte- , Assists- und Rebounds-Variablen an, gruppiert nach Teamvariable .

Hinweis : Die vollständige Dokumentation der Beschreibungsfunktion in Pandas finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Panda-Aufgaben ausführen:

So zählen Sie Gruppensichtungen bei Pandas
So finden Sie den Maximalwert pro Gruppe bei Pandas
So identifizieren Sie Ausreißer bei Pandas

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen