Hoe een samenvatting van vijf getallen in panda's te berekenen
Een vijfcijferige samenvatting is een manier om een reeks gegevens samen te vatten met behulp van de volgende vijf waarden:
- Minimum
- Het eerste kwartiel
- De mediaan
- Het derde kwartiel
- Het maximum
De samenvatting met vijf cijfers is nuttig omdat deze als volgt een beknopte samenvatting geeft van de gegevensverdeling:
- Het vertelt ons waar de mediaanwaarde ligt, met behulp van de mediaan.
- Het vertelt ons de verdeling van de gegevens, met behulp van het eerste en derde kwartiel.
- Het vertelt ons het bereik van de gegevens, met behulp van het minimum en het maximum.
De eenvoudigste manier om een samenvatting van vijf cijfers voor variabelen in een Panda DataFrame te berekenen, is door de functie beschrijven() als volgt te gebruiken:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: Bereken een samenvatting van vijf getallen in Pandas DataFrame
Stel dat we het volgende panda’s DataFrame hebben dat informatie bevat over verschillende basketbalspelers:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
We kunnen de volgende syntaxis gebruiken om de samenvatting van vijf cijfers voor elke numerieke variabele in het DataFrame te berekenen:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
Zo interpreteert u het resultaat van de puntenvariabele :
- De minimumwaarde is 11 .
- De waarde op het 25e percentiel is 14 .
- De 50e percentielwaarde is 18,5 .
- De 75e percentielwaarde is 20,5 .
- De maximale waarde is 28 .
We kunnen de waarden van de hulp- en rebound -variabelen op dezelfde manier interpreteren.
Als u alleen de samenvatting van vijf cijfers voor een specifieke variabele in het DataFrame wilt berekenen, kunt u de volgende syntaxis gebruiken:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
De uitvoer toont nu alleen de vijfcijferige samenvatting voor de puntenvariabele .
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende panda-taken kunt uitvoeren:
Panda’s: hoe u de frequentietelling van waarden in een kolom kunt krijgen
Panda’s: hoe bereken je het gemiddelde per groep?
Panda’s: hoe bereken je de mediaan per groep?