Como calcular estatísticas resumidas para um dataframe do pandas

By Dr. benjamim anderson Julho 20, 2023 Guia 0 Comments

Você pode usar os seguintes métodos para calcular estatísticas resumidas para variáveis em um DataFrame do pandas:

Método 1: calcular estatísticas resumidas para todas as variáveis numéricas

 df. describe ()

Método 2: calcular estatísticas resumidas para todas as variáveis de string

 df. describe (include=' object ')

Método 3: calcular estatísticas resumidas agrupadas por uma variável

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Exemplo 1: Calcular estatísticas resumidas para todas as variáveis numéricas

O código a seguir mostra como calcular estatísticas resumidas para cada variável numérica no DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Podemos ver as seguintes estatísticas resumidas para cada uma das três variáveis numéricas:

contagem: o número de valores diferentes de zero
média : O valor médio
std : O desvio padrão
min: o valor mínimo
25% : O valor no 25º percentil
50% : O valor no percentil 50 (também a mediana)
75% : O valor no percentil 75
máx : O valor máximo

Exemplo 2: Calcular estatísticas resumidas para todas as variáveis de string

O código a seguir mostra como calcular estatísticas resumidas para cada variável de string no DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Podemos ver as seguintes estatísticas resumidas para a variável string em nosso DataFrame:

contagem : o número de valores diferentes de zero
único : o número de valores únicos
no topo: o valor mais frequente
freq : O número de valores que aparecem com mais frequência

Exemplo 3: Calcular estatísticas resumidas agrupadas por uma variável

O código a seguir mostra como calcular o valor médio de todas as variáveis numéricas, agrupadas por variável de equipe :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

A saída exibe o valor médio das variáveis de pontos , assistências e rebotes , agrupadas por variável de equipe .

Observe que podemos usar sintaxe semelhante para calcular uma estatística de resumo diferente, como a mediana:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

A saída exibe o valor mediano das variáveis de pontos , assistências e rebotes , agrupadas por variável de equipe .

Nota : Você pode encontrar a documentação completa da função description no pandas aqui .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:

Como contar avistamentos de grupos em pandas
Como encontrar o valor máximo por grupo no Pandas
Como identificar valores discrepantes em pandas

About Author

Dr. benjamim anderson

Olá, sou Benjamin, um professor aposentado de estatística que se tornou professor dedicado na Statorials. Com vasta experiência e conhecimento na área de estatística, estou empenhado em compartilhar meu conhecimento para capacitar os alunos por meio de Statorials. Saber mais