Pandas: como usar description() para variáveis categóricas
Por padrão, a função description() no pandas calcula estatísticas descritivas para todas as variáveis numéricas em um DataFrame.
No entanto, você também pode usar os seguintes métodos para calcular estatísticas descritivas para variáveis categóricas :
Método 1: Calcular Estatísticas Descritivas para Variáveis Categóricas
df. describe (include=' object ')
Este método calculará count , unique , top e freq para cada variável categórica em um DataFrame.
Método 2: Calcular estatísticas descritivas categóricas para todas as variáveis
df. astype (' object '). describe ()
Este método calculará count , unique , top e freq para cada variável em um DataFrame.
Os exemplos a seguir mostram como usar cada método com o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Exemplo 1: Calcular Estatísticas Descritivas para Variáveis Categóricas
Podemos usar a seguinte sintaxe para calcular estatísticas descritivas para cada variável categórica no DataFrame:
#calculate descriptive statistics for categorical variables only
df. describe (include=' object ')
team
count 8
single 8
top A
freq 1
A saída exibe várias estatísticas descritivas para a única variável categórica ( team ) no DataFrame.
Veja como interpretar o resultado:
- contagem : Existem 8 valores na coluna da equipe.
- único : Existem 8 valores exclusivos na coluna da equipe.
- top : O valor “superior” (ou seja, o mais alto do alfabeto) é A.
- freq : Este valor máximo aparece 1 vez.
Exemplo 2: Calcular estatísticas descritivas categóricas para todas as variáveis
Podemos usar a seguinte sintaxe para calcular count , unique , top e freq para cada variável no DataFrame:
#calculate categorical descriptive statistics for all variables df. astype (' object '). describe () team points assists rebounds count 8 8 8 8 single 8 7 5 7 top A 14 9 6 freq 1 2 3 2
A saída exibe count , unique , top e freq para cada variável no DataFrame, incluindo variáveis numéricas.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns em pandas:
Pandas: como usar description() por grupo
Pandas: como usar description() com percentis específicos
Pandas: como usar description() e remover a notação científica