Як розрахувати квартилі в пандах (з прикладом)


У статистиці квартилі – це значення, які ділять набір даних на чотири рівні частини.

При аналізі розподілу нас зазвичай цікавлять наступні квартилі:

  • Перший квартиль ( Q1 ): значення, розташоване на 25-му процентилі
  • Другий квартиль ( Q2 ): значення, розташоване на 50-му процентилі
  • Третій квартиль ( Q3 ): значення, розташоване на 75-му процентилі

Ви можете використовувати такі методи для обчислення квартилів стовпців у pandas DataFrame:

Спосіб 1: обчислення квартилів для стовпця

 df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])

Спосіб 2: обчисліть квартилі для кожного числового стовпця

 df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

Наступні приклади показують, як використовувати кожен метод на практиці з такими pandas DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   ' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   ' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print (df)

  team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15

Приклад 1: обчислення квартилів для стовпця

Наступний код показує, як обчислити квартилі лише для стовпця балів :

 #calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])

0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64

З результату ми бачимо:

  • Перший квартиль дорівнює 14,5 .
  • Другий квартиль дорівнює 25 .
  • Третій квартиль дорівнює 29,5 .

Знаючи лише ці три значення, ми маємо досить гарне уявлення про те, як значення розподіляються в стовпці балів .

Приклад 2: обчислення квартилів для кожного числового стовпця

Наступний код показує, як обчислити квартилі для кожного числового стовпця в DataFrame:

 #calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

      assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75

Вихідні дані відображають квартилі двох числових стовпців DataFrame.

Зверніть увагу, що існує кілька способів обчислення квартилів розподілу.

Зверніться до сторінки документації pandas, щоб побачити різні методи, які використовує функція pandas quantile() для обчислення квартилів.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в pandas:

Як розрахувати відсоток зміни панд
Як розрахувати сукупний відсоток у пандах
Як розрахувати відсоток від загальної кількості в групі панд

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *