Panda's: hoe te beschrijven() gebruiken voor alleen mean en std
U kunt de functie beschrijven() gebruiken om beschrijvende statistieken te genereren voor variabelen in een pandas DataFrame.
Standaard berekent de functie beschrijven() de volgende statistieken voor elke numerieke variabele in een DataFrame:
- aantal (aantal waarden)
- gemiddeld (gemiddelde waarde)
- std (standaardafwijking)
- min (minimumwaarde)
- 25% (25e percentiel)
- 50% (50e percentiel)
- 75% (75e percentiel)
- max (maximale waarde)
U kunt echter de volgende syntaxis gebruiken om alleen het gemiddelde en de standaardafwijking van elke numerieke variabele te berekenen:
df. describe (). loc [[' mean ', ' std ']]
Het volgende voorbeeld laat zien hoe u deze syntaxis in de praktijk kunt gebruiken.
Voorbeeld: Gebruik beschrijven() in Panda’s om alleen het gemiddelde en de standaard te berekenen
Stel dat we het volgende panda’s DataFrame hebben dat informatie bevat over verschillende basketbalspelers:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Als we de functie beschrijven() gebruiken, kunnen we beschrijvende statistieken berekenen voor elke numerieke variabele in het DataFrame:
#calculate descriptive statistics for each numeric variable
df. describe ()
points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000
We kunnen echter de volgende syntaxis gebruiken om alleen het gemiddelde en de standaardafwijking van elke numerieke variabele te berekenen:
#only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]
points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
Houd er rekening mee dat de uitvoer alleen het gemiddelde en de standaardafwijking voor elke numerieke variabele bevat.
Merk op dat de functie beschrijven() nog steeds elke beschrijvende statistiek berekende zoals voorheen, maar we gebruikten de functie loc om alleen de rijen met de naam mean en std in de uitvoer te selecteren.
Gerelateerd: Panda’s loc versus iloc: wat is het verschil?
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Panda’s: beschrijven() gebruiken per groep
Panda’s: beschrijven() gebruiken met specifieke percentielen
Panda’s: beschrijven() gebruiken en wetenschappelijke notatie verwijderen