Hoe u samenvattende statistieken voor een pandas dataframe kunt berekenen

Von Dr.benjamin anderson Juli 20, 2023 Gids Keine Kommentare

U kunt de volgende methoden gebruiken om samenvattende statistieken voor variabelen in een Panda DataFrame te berekenen:

Methode 1: Bereken samenvattende statistieken voor alle numerieke variabelen

 df. describe ()

Methode 2: Bereken samenvattende statistieken voor alle stringvariabelen

 df. describe (include=' object ')

Methode 3: Bereken samenvattende statistieken gegroepeerd op een variabele

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Voorbeeld 1: Bereken samenvattende statistieken voor alle numerieke variabelen

De volgende code laat zien hoe u samenvattende statistieken berekent voor elke numerieke variabele in het DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

We kunnen de volgende samenvattende statistieken zien voor elk van de drie numerieke variabelen:

count: het aantal niet-nulwaarden
gemiddelde : de gemiddelde waarde
std : De standaardafwijking
min: de minimumwaarde
25% : de waarde op het 25e percentiel
50% : de waarde op het 50e percentiel (tevens de mediaan)
75% : de waarde op het 75e percentiel
max : de maximale waarde

Voorbeeld 2: Bereken samenvattende statistieken voor alle stringvariabelen

De volgende code laat zien hoe u samenvattende statistieken berekent voor elke tekenreeksvariabele in het DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

We kunnen de volgende samenvattende statistieken voor de stringvariabele in ons DataFrame zien:

count : Het aantal waarden die niet nul zijn
uniek : het aantal unieke waarden
bovenaan: de meest voorkomende waarde
freq : Het aantal waarden dat het vaakst voorkomt

Voorbeeld 3: Bereken samenvattende statistieken gegroepeerd op een variabele

De volgende code laat zien hoe u de gemiddelde waarde van alle numerieke variabelen berekent, gegroepeerd op teamvariabele :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

De uitvoer toont de gemiddelde waarde van de variabelen punten , assists en rebounds , gegroepeerd per teamvariabele .

Merk op dat we een vergelijkbare syntaxis kunnen gebruiken om een andere samenvattende statistiek te berekenen, zoals de mediaan:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

De uitvoer toont de mediaanwaarde van de variabelen punten , assists en rebounds , gegroepeerd op teamvariabele .

Opmerking : de volledige documentatie van de beschrijvingsfunctie in panda’s vindt u hier .

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende panda-taken kunt uitvoeren:

Hoe groepswaarnemingen bij panda’s te tellen
Zo vind je bij Pandas de maximale waarde per groep
Hoe uitschieters bij panda’s te identificeren

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder