Como calcular estatísticas resumidas para um dataframe do pandas


Você pode usar os seguintes métodos para calcular estatísticas resumidas para variáveis em um DataFrame do pandas:

Método 1: calcular estatísticas resumidas para todas as variáveis numéricas

 df. describe ()

Método 2: calcular estatísticas resumidas para todas as variáveis de string

 df. describe (include=' object ')

Método 3: calcular estatísticas resumidas agrupadas por uma variável

 df. groupby (' group_column '). mean ()

df. groupby (' group_column '). median ()

df. groupby (' group_column '). max ()

...

Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:

 import pandas as pd
import numpy as np

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'B'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28, 30],
                   ' assists ': [5, np.nan, 7, 9, 12, 9, 9, 4, 5],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, np.nan, 6]})

#view DataFrame
print (df)

  team points assists rebounds
0 to 18 5.0 11.0
1 to 22 NaN 8.0
2 A 19 7.0 10.0
3 A 14 9.0 6.0
4 B 14 12.0 6.0
5 B 11 9.0 5.0
6 B 20 9.0 9.0
7 B 28 4.0 NaN
8 B 30 5.0 6.0

Exemplo 1: Calcular estatísticas resumidas para todas as variáveis numéricas

O código a seguir mostra como calcular estatísticas resumidas para cada variável numérica no DataFrame:

 df. describe ()

	   points assists rebounds
count 9.000000 8.000000 8.000000
mean 19.555556 7.500000 7.625000
std 6.366143 2.725541 2.199838
min 11.000000 4.000000 5.000000
25% 14,000000 5,000000 6,000000
50% 19,000000 8,000000 7,000000
75% 22.000000 9.000000 9.250000
max 30.000000 12.000000 11.000000

Podemos ver as seguintes estatísticas resumidas para cada uma das três variáveis numéricas:

  • contagem: o número de valores diferentes de zero
  • média : O valor médio
  • std : O desvio padrão
  • min: o valor mínimo
  • 25% : O valor no 25º percentil
  • 50% : O valor no percentil 50 (também a mediana)
  • 75% : O valor no percentil 75
  • máx : O valor máximo

Exemplo 2: Calcular estatísticas resumidas para todas as variáveis de string

O código a seguir mostra como calcular estatísticas resumidas para cada variável de string no DataFrame:

 df. describe (include=' object ')

	team
count 9
single 2
top B
freq 5

Podemos ver as seguintes estatísticas resumidas para a variável string em nosso DataFrame:

  • contagem : o número de valores diferentes de zero
  • único : o número de valores únicos
  • no topo: o valor mais frequente
  • freq : O número de valores que aparecem com mais frequência

Exemplo 3: Calcular estatísticas resumidas agrupadas por uma variável

O código a seguir mostra como calcular o valor médio de todas as variáveis numéricas, agrupadas por variável de equipe :

 df. groupby (' team '). mean ()

	points assists rebounds
team			
A 18.25 7.0 8.75
B 20.60 7.8 6.50

A saída exibe o valor médio das variáveis de pontos , assistências e rebotes , agrupadas por variável de equipe .

Observe que podemos usar sintaxe semelhante para calcular uma estatística de resumo diferente, como a mediana:

 df. groupby (' team '). median ()

	points assists rebounds
team			
A 18.5 7.0 9.0
B 20.0 9.0 6.0

A saída exibe o valor mediano das variáveis de pontos , assistências e rebotes , agrupadas por variável de equipe .

Nota : Você pode encontrar a documentação completa da função description no pandas aqui .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:

Como contar avistamentos de grupos em pandas
Como encontrar o valor máximo por grupo no Pandas
Como identificar valores discrepantes em pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *