Como calcular quartis em pandas (com exemplo)


Nas estatísticas, os quartis são valores que dividem um conjunto de dados em quatro partes iguais.

Ao analisar uma distribuição, geralmente estamos interessados nos seguintes quartis:

  • Primeiro quartil ( Q1 ): O valor localizado no 25º percentil
  • Segundo quartil ( Q2 ): O valor localizado no 50º percentil
  • Terceiro quartil ( Q3 ): O valor localizado no 75º percentil

Você pode usar os seguintes métodos para calcular quartis de colunas em um DataFrame do pandas:

Método 1: calcular quartis para uma coluna

 df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])

Método 2: calcular quartis para cada coluna numérica

 df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                   ' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
                   ' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})

#view DataFrame
print (df)

  team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15

Exemplo 1: Calcular quartis para uma coluna

O código a seguir mostra como calcular quartis apenas para a coluna de pontos :

 #calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])

0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64

Pelo resultado podemos ver:

  • O primeiro quartil é 14,5 .
  • O segundo quartil é 25 .
  • O terceiro quartil é 29,5 .

Conhecendo apenas esses três valores, temos uma boa ideia de como os valores estão distribuídos na coluna de pontos .

Exemplo 2: Calcular quartis para cada coluna numérica

O código a seguir mostra como calcular quartis para cada coluna numérica no DataFrame:

 #calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )

      assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75

A saída exibe os quartis das duas colunas numéricas do DataFrame.

Observe que existem várias maneiras de calcular quartis de uma distribuição.

Consulte a página de documentação do pandas para ver os diferentes métodos que a função pandas quantile() usa para calcular quartis.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:

Como calcular a variação percentual em pandas
Como calcular a porcentagem cumulativa em pandas
Como calcular a porcentagem do total dentro de um grupo em pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *