Pandas: як використовувати describe() лише для mean і std


Ви можете використовувати функцію describe() для створення описової статистики для змінних у pandas DataFrame.

За замовчуванням функція describe() обчислює такі показники для кожної числової змінної в DataFrame:

  • count (кількість значень)
  • середній (середнє значення)
  • std (стандартне відхилення)
  • min (мінімальне значення)
  • 25% (25 процентиль)
  • 50% (50-й процентиль)
  • 75% (75-й процентиль)
  • max (максимальне значення)

Однак ви можете використовувати такий синтаксис, щоб обчислити лише середнє значення та стандартне відхилення кожної числової змінної:

 df. describe (). loc [[' mean ', ' std ']]

У наступному прикладі показано, як використовувати цей синтаксис на практиці.

Приклад: використовуйте describe() у Pandas, щоб обчислити лише середнє значення та стандарт

Припустімо, що у нас є такий фрейм даних pandas, який містить інформацію про різних баскетболістів:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Якщо ми використовуємо функцію describe() , ми можемо обчислити описову статистику для кожної числової змінної в DataFrame:

 #calculate descriptive statistics for each numeric variable
df. describe ()

points assists rebounds
count 8.000000 8.00000 8.000000
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994
min 11.000000 4.00000 5.000000
25% 14,000000 6,50000 6,000000
50% 18.500000 8.00000 8.500000
75% 20.500000 9.00000 10.250000
max 28.000000 12.00000 12.000000

Однак ми можемо використовувати такий синтаксис, щоб обчислити лише середнє значення та стандартне відхилення кожної числової змінної:

 #only calculate mean and standard deviation of each numeric variable
df. describe (). loc [[' mean ', ' std ']]

           points assists rebounds
mean 18.250000 7.75000 8.375000
std 5.365232 2.54951 2.559994

Зауважте, що вихідні дані містять лише середнє значення та стандартне відхилення для кожної числової змінної.

Зауважте, що функція describe() все ще обчислювала кожну описову статистику, як і раніше, але ми використовували функцію loc , щоб вибрати лише рядки з іменами mean і std у виводі.

За темою: Pandas loc проти iloc: у чому різниця?

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові операції в pandas:

Pandas: як використовувати describe() за групою
Pandas: як використовувати describe() із певними процентилями
Pandas: як використовувати describe() і видалити наукову нотацію

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *