So berechnen sie eine zusammenfassung von fünf zahlen in pandas
Eine fünfstellige Zusammenfassung ist eine Möglichkeit, einen Datensatz anhand der folgenden fünf Werte zusammenzufassen:
- Minimum
- Das erste Quartil
- Der Median
- Das dritte Quartil
- Das Maximum
Die Zusammenfassung mit fünf Zahlen ist nützlich, da sie eine prägnante Zusammenfassung der Datenverteilung wie folgt liefert:
- Mithilfe des Medians erfahren wir, wo der Medianwert liegt.
- Es zeigt uns die Verteilung der Daten anhand des ersten und dritten Quartils.
- Es zeigt uns den Bereich der Daten anhand des Minimums und Maximums an.
Der einfachste Weg, eine fünfstellige Zusammenfassung für Variablen in einem Pandas-DataFrame zu berechnen, besteht darin, die Funktion discover() wie folgt zu verwenden:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
Das folgende Beispiel zeigt, wie diese Syntax in der Praxis verwendet wird.
Beispiel: Berechnen Sie eine Zusammenfassung von fünf Zahlen in Pandas DataFrame
Angenommen, wir haben den folgenden Pandas-DataFrame, der Informationen über verschiedene Basketballspieler enthält:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Wir können die folgende Syntax verwenden, um die fünfstellige Zusammenfassung für jede numerische Variable im DataFrame zu berechnen:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
So interpretieren Sie das Ergebnis der Punktevariablen :
- Der Mindestwert beträgt 11 .
- Der Wert beim 25. Perzentil beträgt 14 .
- Der 50. Perzentilwert beträgt 18,5 .
- Der 75. Perzentilwert beträgt 20,5 .
- Der Maximalwert beträgt 28 .
Wir können die Werte der Variablen help und rebound auf die gleiche Weise interpretieren.
Wenn Sie nur die fünfstellige Zusammenfassung für eine bestimmte Variable im DataFrame berechnen möchten, können Sie die folgende Syntax verwenden:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
Die Ausgabe zeigt nun die fünfstellige Zusammenfassung nur für die Punktevariable .
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie Sie andere häufige Panda-Aufgaben ausführen:
Pandas: So ermitteln Sie die Häufigkeitsanzahl von Werten in einer Spalte
Pandas: So berechnen Sie den Durchschnitt pro Gruppe
Pandas: So berechnen Sie den Median pro Gruppe