Hoe het gemiddelde, de mediaan en de modus bij panda's te berekenen
U kunt de volgende functies gebruiken om het gemiddelde, de mediaan en de modus van elke numerieke kolom in een Panda DataFrame te berekenen:
print ( df.mean (numeric_only= True )) print (df. median (numeric_only= True )) print (df. mode (numeric_only= True ))
Het volgende voorbeeld laat zien hoe u deze functies in de praktijk kunt gebruiken.
Voorbeeld: Bereken gemiddelde, mediaan en modus in panda’s
Stel dat we het volgende panda’s DataFrame hebben dat informatie bevat over de punten die zijn gescoord door verschillende basketbalspelers in vier verschillende games:
import pandas as pd #createDataFrame df = pd. DataFrame ({' player ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'], ' game1 ': [18, 22, 19, 14, 14, 11, 20, 28], ' game2 ': [5, 7, 7, 9, 12, 9, 9, 4], ' game3 ': [11, 8, 10, 6, 6, 5, 9, 12], ' game4 ': [9, 8, 10, 9, 14, 15, 10, 11]}) #view DataFrame print (df) player game1 game2 game3 game4 0 A 18 5 11 9 1 B 22 7 8 8 2 C 19 7 10 10 3 D 14 9 6 9 4 E 14 12 6 14 5 F 11 9 5 15 6 G 20 9 9 10 7:28 4 12 11
We kunnen de volgende syntaxis gebruiken om de gemiddelde waarde van elke numerieke kolom te berekenen:
#calculate mean of each numeric column print ( df.mean (numeric_only= True )) game1 18,250 game2 7,750 game3 8.375 game4 10,750 dtype:float64
Uit het resultaat kunnen we zien:
- De gemiddelde waarde in de game1 -kolom is 18,25 .
- De gemiddelde waarde in de game2- kolom is 7,75 .
- De gemiddelde waarde in de game3 -kolom is 8,375 .
- De gemiddelde waarde in de game4 -kolom is 10,75 .
We kunnen dan de volgende syntaxis gebruiken om de mediaanwaarde van elke numerieke kolom te berekenen:
#calculate median of each numeric column print (df. median (numeric_only= True )) game1 18.5 game2 8.0 game3 8.5 game4 10.0 dtype:float64
Uit het resultaat kunnen we zien:
- De mediaanwaarde in de game1 -kolom is 18,5 .
- De mediaanwaarde in de game2- kolom is 8 .
- De mediaanwaarde in de game3 -kolom is 8,5 .
- De mediaanwaarde in de game4 -kolom is 10 .
We kunnen dan de volgende syntaxis gebruiken om de modus van elke numerieke kolom te berekenen:
#calculate mode of each numeric column print (df. mode (numeric_only= True )) game1 game2 game3 game4 0 14.0 9.0 6.0 9 1 NaN NaN NaN 10
Uit het resultaat kunnen we zien:
- De modus in de game1- kolom is 14 .
- De modus in de game2- kolom is 9 .
- De modus in de game3- kolom is 6 .
- De modus in de game4 -kolom is 9 en 10
Merk op dat de game4- kolom twee modi had, aangezien er twee waarden waren die het vaakst in die kolom voorkwamen.
Opmerking : u kunt ook de functie beschrijven() in panda’s gebruiken om voor elke kolom meer beschrijvende statistieken te genereren.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Hoe het groepsgemiddelde bij panda’s te berekenen
Hoe de groepsmediaan bij panda’s te berekenen
Hoe de modus per groep in Panda’s te berekenen