Pandas: como usar description() para variáveis categóricas


Por padrão, a função description() no pandas calcula estatísticas descritivas para todas as variáveis numéricas em um DataFrame.

No entanto, você também pode usar os seguintes métodos para calcular estatísticas descritivas para variáveis categóricas :

Método 1: Calcular Estatísticas Descritivas para Variáveis Categóricas

 df. describe (include=' object ')

Este método calculará count , unique , top e freq para cada variável categórica em um DataFrame.

Método 2: Calcular estatísticas descritivas categóricas para todas as variáveis

 df. astype (' object '). describe ()

Este método calculará count , unique , top e freq para cada variável em um DataFrame.

Os exemplos a seguir mostram como usar cada método com o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Exemplo 1: Calcular Estatísticas Descritivas para Variáveis Categóricas

Podemos usar a seguinte sintaxe para calcular estatísticas descritivas para cada variável categórica no DataFrame:

 #calculate descriptive statistics for categorical variables only
df. describe (include=' object ')

team
count 8
single 8
top A
freq 1

A saída exibe várias estatísticas descritivas para a única variável categórica ( team ) no DataFrame.

Veja como interpretar o resultado:

  • contagem : Existem 8 valores na coluna da equipe.
  • único : Existem 8 valores exclusivos na coluna da equipe.
  • top : O valor “superior” (ou seja, o mais alto do alfabeto) é A.
  • freq : Este valor máximo aparece 1 vez.

Exemplo 2: Calcular estatísticas descritivas categóricas para todas as variáveis

Podemos usar a seguinte sintaxe para calcular count , unique , top e freq para cada variável no DataFrame:

 #calculate categorical descriptive statistics for all variables
df. astype (' object '). describe ()

        team points assists rebounds
count 8 8 8 8
single 8 7 5 7
top A 14 9 6
freq 1 2 3 2

A saída exibe count , unique , top e freq para cada variável no DataFrame, incluindo variáveis numéricas.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:

Pandas: como usar description() por grupo
Pandas: como usar description() com percentis específicos
Pandas: como usar description() e remover a notação científica

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *