Jak obliczyć statystyki podsumowujące dla ramki danych pandas

Przez Benjamin Anderson 20 lipca, 2023 Przewodnik 0 komentarzy

Do obliczenia statystyk podsumowujących dla zmiennych w ramce DataFrame pandy można użyć następujących metod:

Metoda 1: Oblicz statystyki podsumowujące dla wszystkich zmiennych numerycznych

 df. describe ()

Metoda 2: Oblicz statystyki podsumowujące dla wszystkich zmiennych łańcuchowych

 df. describe (include=' object ')

Metoda 3: Oblicz statystyki podsumowujące pogrupowane według zmiennej

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Poniższe przykłady pokazują, jak w praktyce używać każdej metody z następującą ramką DataFrame pand:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Przykład 1: Oblicz statystyki podsumowujące dla wszystkich zmiennych numerycznych

Poniższy kod pokazuje, jak obliczyć statystyki podsumowujące dla każdej zmiennej numerycznej w ramce DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Dla każdej z trzech zmiennych liczbowych możemy zobaczyć następujące statystyki podsumowujące:

count: liczba wartości niezerowych
średnia : Wartość średnia
std : odchylenie standardowe
min: wartość minimalna
25% : Wartość na 25. percentylu
50% : Wartość na 50. percentylu (również mediana)
75% : Wartość na 75. percentylu
max : Wartość maksymalna

Przykład 2: Oblicz statystyki podsumowujące dla wszystkich zmiennych łańcuchowych

Poniższy kod pokazuje, jak obliczyć statystyki podsumowujące dla każdej zmiennej łańcuchowej w ramce DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

W naszej ramce DataFrame możemy zobaczyć następujące statystyki podsumowujące dla zmiennej łańcuchowej:

count : Liczba wartości niezerowych
unikalne : liczba unikalnych wartości
na górze: najczęstsza wartość
freq : Liczba wartości pojawiających się najczęściej

Przykład 3: Oblicz statystyki podsumowujące pogrupowane według zmiennej

Poniższy kod pokazuje, jak obliczyć średnią wartość wszystkich zmiennych numerycznych, pogrupowanych według zmiennej zespołowej :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

Dane wyjściowe wyświetlają średnią wartość punktów , asyst i zbiórek , pogrupowane według zmiennej zespołu .

Zauważ, że możemy użyć podobnej składni do obliczenia innej statystyki podsumowującej, takiej jak mediana:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

Dane wyjściowe wyświetlają średnią wartość zmiennych punktów , asyst i zbiórek , pogrupowanych według zmiennej zespołu .

Uwaga : Pełną dokumentację funkcji opisu w pandach znajdziesz tutaj .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania związane z pandą:

Jak liczyć obserwacje grupowe u pand
Jak znaleźć maksymalną wartość na grupę w Pandas
Jak zidentyfikować wartości odstające w pandach

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej