Como calcular um resumo de cinco números no pandas
Um resumo de cinco dígitos é uma forma de resumir um conjunto de dados usando os cinco valores a seguir:
- Mínimo
- O primeiro quartil
- A mediana
- O terceiro quartil
- O máximo
O resumo de cinco números é útil porque fornece um resumo conciso da distribuição dos dados da seguinte forma:
- Diz-nos onde está o valor mediano , usando a mediana.
- Diz-nos a distribuição dos dados, utilizando o primeiro e o terceiro quartis.
- Diz-nos o intervalo dos dados, usando o mínimo e o máximo.
A maneira mais simples de calcular um resumo de cinco números para variáveis em um DataFrame do pandas é usar a função description() da seguinte maneira:
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]
O exemplo a seguir mostra como usar essa sintaxe na prática.
Exemplo: Calcule um resumo de cinco números no Pandas DataFrame
Suponha que temos o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
' points ': [18, 22, 19, 14, 14, 11, 20, 28],
' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})
#view DataFrame
print (df)
team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12
Podemos usar a seguinte sintaxe para calcular o resumo de cinco números para cada variável numérica no DataFrame:
#calculate five number summary for each numeric variable df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] points assists rebounds min 11.0 4.0 5.00 25% 14.0 6.5 6.00 50% 18.5 8.0 8.50 75% 20.5 9.0 10.25 max 28.0 12.0 12.00
Veja como interpretar o resultado da variável points :
- O valor mínimo é 11 .
- O valor no percentil 25 é 14 .
- O valor do 50º percentil é 18,5 .
- O valor do 75º percentil é 20,5 .
- O valor máximo é 28 .
Podemos interpretar os valores das variáveis de ajuda e rebote da mesma maneira.
Se quiser apenas calcular o resumo de cinco números para uma variável específica no DataFrame, você pode usar a seguinte sintaxe:
#calculate five number summary for the points variable df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']] min 11.0 25% 14.0 50% 18.5 75% 20.5 max 28.0 Name: points, dtype: float64
A saída agora mostra o resumo de cinco dígitos apenas para a variável de pontos .
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:
Pandas: Como obter a contagem de frequência dos valores em uma coluna
Pandas: como calcular a média por grupo
Pandas: como calcular a mediana por grupo