Pandas: как использовать описать() для категориальных переменных


По умолчанию функция описать() в pandas вычисляет описательную статистику для всех числовых переменных в DataFrame.

Однако вы также можете использовать следующие методы для расчета описательной статистики для категориальных переменных :

Метод 1: расчет описательной статистики для категориальных переменных

 df. describe (include=' object ')

Этот метод рассчитает count , unique , top и freq для каждой категориальной переменной в DataFrame.

Метод 2. Рассчитать категориальную описательную статистику для всех переменных.

 df. astype (' object '). describe ()

Этот метод рассчитает count , unique , top и freq для каждой переменной в DataFrame.

В следующих примерах показано, как использовать каждый метод со следующим DataFrame pandas, содержащим информацию о различных баскетболистах:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Пример 1. Вычисление описательной статистики для категориальных переменных

Мы можем использовать следующий синтаксис для расчета описательной статистики для каждой категориальной переменной в DataFrame:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

В выходных данных отображаются различные описательные статистические данные для одной категориальной переменной ( команда ) в DataFrame.

Вот как интерпретировать результат:

  • count : В столбце команды 8 значений.
  • unique : в столбце команды имеется 8 уникальных значений.
  • top : «верхнее» значение (т. е. самое высокое в алфавите) — A.
  • частота : это максимальное значение появляется 1 раз.

Пример 2. Расчет категориальной описательной статистики для всех переменных.

Мы можем использовать следующий синтаксис для вычисления count , unique , top и freq для каждой переменной в DataFrame:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

В выходных данных отображаются count , unique , top и freq для каждой переменной в DataFrame, включая числовые переменные.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в pandas:

Панды: как использовать описать() по группе
Pandas: как использовать define() с определенными процентилями
Панды: как использовать описать() и удалить научную нотацию

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *