Як обчислити підсумкову статистику для pandas dataframe

за Редакція 20 Липня, 2023 Гід 0 коментарів

Ви можете використовувати наступні методи для обчислення підсумкової статистики для змінних у pandas DataFrame:

Спосіб 1: обчисліть підсумкову статистику для всіх числових змінних

 df. describe ()

Спосіб 2: обчисліть підсумкову статистику для всіх рядкових змінних

 df. describe (include=' object ')

Спосіб 3: обчисліть підсумкову статистику, згруповану за змінною

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Наступні приклади показують, як використовувати кожен метод на практиці з такими pandas DataFrame:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Приклад 1: обчислення підсумкової статистики для всіх числових змінних

Наступний код показує, як обчислити підсумкову статистику для кожної числової змінної в DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Ми можемо побачити наступну підсумкову статистику для кожної з трьох числових змінних:

count: кількість ненульових значень
середнє : середнє значення
std : стандартне відхилення
min: мінімальне значення
25% : значення на 25-му процентилі
50% : значення на 50-му процентилі (також медіана)
75% : значення на 75-му процентилі
max : максимальне значення

Приклад 2: обчислення підсумкової статистики для всіх рядкових змінних

Наступний код показує, як обчислити підсумкову статистику для кожної рядкової змінної в DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Ми можемо побачити наступну підсумкову статистику для рядкової змінної в нашому DataFrame:

count : кількість ненульових значень
unique : кількість унікальних значень
вгорі: найбільш часте значення
freq : кількість значень, які з’являються найчастіше

Приклад 3: обчислення підсумкової статистики, згрупованої за змінною

Наступний код показує, як обчислити середнє значення всіх числових змінних, згрупованих за командною змінною:

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

На виході відображається середнє значення змінних очок , передач і підбирань , згрупованих за командною змінною.

Зверніть увагу, що ми можемо використовувати подібний синтаксис для обчислення іншої підсумкової статистики, наприклад медіани:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

У вихідних даних відображається середнє значення змінних очок , передач і підбирань , згрупованих за командною змінною.

Примітка : повну документацію щодо функції опису в pandas можна знайти тут .

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання панди:

Як підрахувати групові спостереження панд
Як знайти максимальне значення для групи в Pandas
Як визначити викиди у панд

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше