Panda's: beschrijven() gebruiken met specifieke percentielen
U kunt de functie beschrijven() gebruiken om beschrijvende statistieken te genereren voor variabelen in een pandas DataFrame.
Standaard berekent Panda het 25e, 50e en 75e percentiel voor variabelen.
U kunt echter het argument percentielen in de functie beschrijven() gebruiken om de exacte percentielen op te geven die moeten worden berekend.
De volgende voorbeelden laten zien hoe u dit argument in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Voorbeeld 1: beschrijven() gebruiken met standaard percentielen
De volgende code laat zien hoe u de functie beschrijven() gebruikt om beschrijvende statistieken te berekenen voor elke numerieke variabele in het DataFrame:
#calculate descriptive statistics for each numeric variable
df. describe ()
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000
Houd er rekening mee dat de functie beschrijven() standaard het 25e, 50e en 75e percentiel voor elke variabele berekent.
Voorbeeld 2: beschrijven() gebruiken met aangepaste percentielen
De volgende code laat zien hoe u de functie beschrijven() met het argument percentielen gebruikt om het 30e, 60e en 90e percentiel voor elke numerieke variabele in het DataFrame te berekenen:
#calculate custom percentiles for each numeric variable
df. describe (percentiles=[ .3 , .6 , .9 ])
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
30% 14.400000 7.00000 6.200000
50% 18.500000 8.00000 8.500000
60% 19.200000 9.00000 9.200000
90% 23.800000 9.90000 11.300000
max 28.000000 12.00000 12.000000
Houd er rekening mee dat de functie beschrijven() voor elke numerieke variabele het 30e, 60e en 90e percentiel retourneert.
Opmerking : de functie beschrijven() retourneert ook het 50e percentiel omdat dit de mediaanwaarde van elke variabele vertegenwoordigt en een van de standaardstatistieken is die worden berekend door de functie beschrijven() .
Voorbeeld 3: beschrijven() gebruiken zonder percentiel
De volgende code laat zien hoe u de functie beschrijven() gebruikt met het argument percentiles=[] om geen percentielen te berekenen voor elke numerieke variabele in het DataFrame:
#calculate no percentiles for each numeric variable
df. describe (percentiles=[])
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
50% 18.500000 8.00000 8.500000
max 28.000000 12.00000 12.000000
Houd er rekening mee dat het 25e en 75e percentiel niet langer voor elke variabele worden berekend.
Houd er rekening mee dat het 50e percentiel altijd in het resultaat wordt opgenomen, omdat dit de mediaanwaarde van elke variabele vertegenwoordigt.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Panda’s: beschrijven() gebruiken per groep
Panda’s: beschrijven() gebruiken en wetenschappelijke notatie verwijderen
Panda’s: hoe het gemiddelde, de mediaan en de modus te berekenen