Hoe u samenvattende statistieken voor een pandas dataframe kunt berekenen


U kunt de volgende methoden gebruiken om samenvattende statistieken voor variabelen in een Panda DataFrame te berekenen:

Methode 1: Bereken samenvattende statistieken voor alle numerieke variabelen

 df. describe ()

Methode 2: Bereken samenvattende statistieken voor alle stringvariabelen

 df. describe (include=' object ')

Methode 3: Bereken samenvattende statistieken gegroepeerd op een variabele

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Voorbeeld 1: Bereken samenvattende statistieken voor alle numerieke variabelen

De volgende code laat zien hoe u samenvattende statistieken berekent voor elke numerieke variabele in het DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

We kunnen de volgende samenvattende statistieken zien voor elk van de drie numerieke variabelen:

  • count: het aantal niet-nulwaarden
  • gemiddelde : de gemiddelde waarde
  • std : De standaardafwijking
  • min: de minimumwaarde
  • 25% : de waarde op het 25e percentiel
  • 50% : de waarde op het 50e percentiel (tevens de mediaan)
  • 75% : de waarde op het 75e percentiel
  • max : de maximale waarde

Voorbeeld 2: Bereken samenvattende statistieken voor alle stringvariabelen

De volgende code laat zien hoe u samenvattende statistieken berekent voor elke tekenreeksvariabele in het DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

We kunnen de volgende samenvattende statistieken voor de stringvariabele in ons DataFrame zien:

  • count : Het aantal waarden die niet nul zijn
  • uniek : het aantal unieke waarden
  • bovenaan: de meest voorkomende waarde
  • freq : Het aantal waarden dat het vaakst voorkomt

Voorbeeld 3: Bereken samenvattende statistieken gegroepeerd op een variabele

De volgende code laat zien hoe u de gemiddelde waarde van alle numerieke variabelen berekent, gegroepeerd op teamvariabele :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

De uitvoer toont de gemiddelde waarde van de variabelen punten , assists en rebounds , gegroepeerd per teamvariabele .

Merk op dat we een vergelijkbare syntaxis kunnen gebruiken om een andere samenvattende statistiek te berekenen, zoals de mediaan:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

De uitvoer toont de mediaanwaarde van de variabelen punten , assists en rebounds , gegroepeerd op teamvariabele .

Opmerking : de volledige documentatie van de beschrijvingsfunctie in panda’s vindt u hier .

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende panda-taken kunt uitvoeren:

Hoe groepswaarnemingen bij panda’s te tellen
Zo vind je bij Pandas de maximale waarde per groep
Hoe uitschieters bij panda’s te identificeren

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert