Pandas: как использовать описать() для категориальных переменных
По умолчанию функция описать() в pandas вычисляет описательную статистику для всех числовых переменных в DataFrame.
Однако вы также можете использовать следующие методы для расчета описательной статистики для категориальных переменных :
Метод 1: расчет описательной статистики для категориальных переменных
df. describe (include=' object ')
Этот метод рассчитает count , unique , top и freq для каждой категориальной переменной в DataFrame.
Метод 2. Рассчитать категориальную описательную статистику для всех переменных.
df. astype (' object '). describe ()
Этот метод рассчитает count , unique , top и freq для каждой переменной в DataFrame.
В следующих примерах показано, как использовать каждый метод со следующим DataFrame pandas, содержащим информацию о различных баскетболистах:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Пример 1. Вычисление описательной статистики для категориальных переменных
Мы можем использовать следующий синтаксис для расчета описательной статистики для каждой категориальной переменной в DataFrame:
#calculate descriptive statistics for categorical variables only
df. describe (include=' object ')
team
count 8
single 8
top A
freq 1
В выходных данных отображаются различные описательные статистические данные для одной категориальной переменной ( команда ) в DataFrame.
Вот как интерпретировать результат:
- count : В столбце команды 8 значений.
- unique : в столбце команды имеется 8 уникальных значений.
- top : «верхнее» значение (т. е. самое высокое в алфавите) — A.
- частота : это максимальное значение появляется 1 раз.
Пример 2. Расчет категориальной описательной статистики для всех переменных.
Мы можем использовать следующий синтаксис для вычисления count , unique , top и freq для каждой переменной в DataFrame:
#calculate categorical descriptive statistics for all variables df. astype (' object '). describe () team points assists rebounds count 8 8 8 8 single 8 7 5 7 top A 14 9 6 freq 1 2 3 2
В выходных данных отображаются count , unique , top и freq для каждой переменной в DataFrame, включая числовые переменные.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные операции в pandas:
Панды: как использовать описать() по группе
Pandas: как использовать define() с определенными процентилями
Панды: как использовать описать() и удалить научную нотацию