Pandas: verwendung von beschreiben() mit bestimmten perzentilen
Sie können die Funktion „beschreiben()“ verwenden, umbeschreibende Statistiken für Variablen in einem Pandas-DataFrame zu generieren.
Standardmäßig berechnet Pandas das 25., 50. und 75. Perzentil für Variablen.
Sie können jedoch das Argument „Perzentilen “ in der Funktion „beschreiben()“ verwenden, um die genauen zu berechnenden Perzentile anzugeben.
Die folgenden Beispiele zeigen, wie dieses Argument in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Beispiel 1: Verwendung von beschreiben() mit Standardperzentilen
Der folgende Code zeigt, wie Sie die Funktion „beschreiben()“ verwenden, um beschreibende Statistiken für jede numerische Variable im DataFrame zu berechnen:
#calculate descriptive statistics for each numeric variable
df. describe ()
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000
Beachten Sie, dass die Funktion discover() standardmäßig das 25., 50. und 75. Perzentil für jede Variable berechnet.
Beispiel 2: Verwendung von beschreiben() mit benutzerdefinierten Perzentilen
Der folgende Code zeigt, wie die Funktion „beschreiben()“ mit dem Argument „ perzentilen “ verwendet wird, um das 30., 60. und 90. Perzentil für jede numerische Variable im DataFrame zu berechnen:
#calculate custom percentiles for each numeric variable
df. describe (percentiles=[ .3 , .6 , .9 ])
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
30% 14.400000 7.00000 6.200000
50% 18.500000 8.00000 8.500000
60% 19.200000 9.00000 9.200000
90% 23.800000 9.90000 11.300000
max 28.000000 12.00000 12.000000
Beachten Sie, dass die Funktion discover() das 30., 60. und 90. Perzentil für jede numerische Variable zurückgibt.
Hinweis : Die Funktion „beschreiben()“ gibt auch das 50. Perzentil zurück, da dies den Medianwert jeder Variablen darstellt und eine der von der Funktion „beschreiben()“ berechneten Standardmetriken ist.
Beispiel 3: Verwendung von beschreiben() ohne Perzentil
Der folgende Code zeigt, wie die Funktion „beschreiben()“ mit dem Argument „percentiles=[]“ verwendet wird, um für jede numerische Variable im DataFrame keine Perzentile zu berechnen:
#calculate no percentiles for each numeric variable
df. describe (percentiles=[])
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
50% 18.500000 8.00000 8.500000
max 28.000000 12.00000 12.000000
Beachten Sie, dass das 25. und 75. Perzentil nicht mehr für jede Variable berechnet wird.
Beachten Sie, dass das 50. Perzentil immer im Ergebnis enthalten ist, da es den Medianwert jeder Variablen darstellt.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
Pandas: wie man beschreiben() nach Gruppen verwendet
Pandas: wie man beschreiben() verwendet und die wissenschaftliche Notation entfernt
Pandas: So berechnen Sie Mittelwert, Median und Modus