Pandy: jak używać funkcji opisu() według grupy


Możesz użyć funkcji opisu() do wygenerowania statystyk opisowych dla zmiennych w ramce DataFrame pandy.

Aby używać funkcji opisu() z funkcją groupby() w pandach, możesz użyć następującej podstawowej składni:

 df. groupby (' group_var ')[' values_var ']. describe ()

Poniższy przykład pokazuje, jak zastosować tę składnię w praktyce.

Przykład: użyj funkcji opisania() według grupy w Pandach

Załóżmy, że mamy następującą ramkę danych pand, która zawiera informacje o koszykarzach z dwóch różnych drużyn:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [8, 12, 14, 14, 15, 22, 27, 24],
                   ' assists ':[2, 2, 3, 5, 7, 6, 8, 12]})

#view DataFrame
print (df)

  team points assists
0 to 8 2
1 to 12 2
2 to 14 3
3 to 14 5
4 B 15 7
5 B 22 6
6 B 27 8
7 B 24 12

Możemy użyć funkcji opisu() wraz z funkcją groupby() w celu podsumowania wartości w kolumnie punktów dla każdego zespołu :

 #summarize points by team
df. groupby (' team ')[' points ']. describe ()

count mean std min 25% 50% 75% max
team								
A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Z wyniku możemy zobaczyć następujące wartości zmiennej punktowej dla każdej drużyny:

  • count (liczba obserwacji)
  • średnia (średnia wartość punktowa)
  • std (odchylenie standardowe wartości punktowych)
  • min (minimalna wartość punktowa)
  • 25 % (25. percentyl punktów)
  • 50 % (50. percentyl (tj. mediana) punktów)
  • 75 % (75. percentyl punktów)
  • max (maksymalna wartość punktowa)

Jeśli chcesz, aby wyniki były wyświetlane w formacie DataFrame, możesz użyć argumentu reset_index() :

 #summarize points by team
df. groupby (' team ')[' points ']. describe (). reset_index ()

        team count mean std min 25% 50% 75% max
0 A 4.0 12.0 2.828427 8.0 11.00 13.0 14.00 14.0
1 B 4.0 22.0 5.099020 15.0 20.25 23.0 24.75 27.0

Zmienna zespołu jest teraz kolumną w DataFrame, a wartości indeksu to 0 i 1.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje na pandach:

Pandy: jak obliczyć skumulowaną sumę na grupę
Pandy: jak liczyć unikalne wartości według grupy
Pandy: jak obliczyć korelację według grup

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *