Como calcular um resumo de cinco números no pandas


Um resumo de cinco dígitos é uma forma de resumir um conjunto de dados usando os cinco valores a seguir:

  • Mínimo
  • O primeiro quartil
  • A mediana
  • O terceiro quartil
  • O máximo

O resumo de cinco números é útil porque fornece um resumo conciso da distribuição dos dados da seguinte forma:

  • Diz-nos onde está o valor mediano , usando a mediana.
  • Diz-nos a distribuição dos dados, utilizando o primeiro e o terceiro quartis.
  • Diz-nos o intervalo dos dados, usando o mínimo e o máximo.

A maneira mais simples de calcular um resumo de cinco números para variáveis em um DataFrame do pandas é usar a função description() da seguinte maneira:

 df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: Calcule um resumo de cinco números no Pandas DataFrame

Suponha que temos o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
                   ' points ': [18, 22, 19, 14, 14, 11, 20, 28],
                   ' assists ': [5, 7, 7, 9, 12, 9, 9, 4],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
print (df)

  team points assists rebounds
0 A 18 5 11
1 B 22 7 8
2 C 19 7 10
3 D 14 9 6
4 E 14 12 6
5 F 11 9 5
6 G 20 9 9
7:28 4 12

Podemos usar a seguinte sintaxe para calcular o resumo de cinco números para cada variável numérica no DataFrame:

 #calculate five number summary for each numeric variable
df. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

      points assists rebounds
min 11.0 4.0 5.00
25% 14.0 6.5 6.00
50% 18.5 8.0 8.50
75% 20.5 9.0 10.25
max 28.0 12.0 12.00

Veja como interpretar o resultado da variável points :

  • O valor mínimo é 11 .
  • O valor no percentil 25 é 14 .
  • O valor do 50º percentil é 18,5 .
  • O valor do 75º percentil é 20,5 .
  • O valor máximo é 28 .

Podemos interpretar os valores das variáveis de ajuda e rebote da mesma maneira.

Se quiser apenas calcular o resumo de cinco números para uma variável específica no DataFrame, você pode usar a seguinte sintaxe:

 #calculate five number summary for the points variable
df[' points ']. describe (). loc [[' min ', '25 % ', '50 % ', '75% ', ' max ']]

min 11.0
25% 14.0
50% 18.5
75% 20.5
max 28.0
Name: points, dtype: float64

A saída agora mostra o resumo de cinco dígitos apenas para a variável de pontos .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns do panda:

Pandas: Como obter a contagem de frequência dos valores em uma coluna
Pandas: como calcular a média por grupo
Pandas: como calcular a mediana por grupo

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *