Como calcular quartis em pandas (com exemplo)
Nas estatísticas, os quartis são valores que dividem um conjunto de dados em quatro partes iguais.
Ao analisar uma distribuição, geralmente estamos interessados nos seguintes quartis:
- Primeiro quartil ( Q1 ): O valor localizado no 25º percentil
- Segundo quartil ( Q2 ): O valor localizado no 50º percentil
- Terceiro quartil ( Q3 ): O valor localizado no 75º percentil
Você pode usar os seguintes métodos para calcular quartis de colunas em um DataFrame do pandas:
Método 1: calcular quartis para uma coluna
df[' some_column ']. quantile ([ 0.25 , 0.5 , 0.75 ])
Método 2: calcular quartis para cada coluna numérica
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
Os exemplos a seguir mostram como usar cada método na prática com o seguinte DataFrame do pandas:
import pandas as pd
#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
' points ': [12, 14, 14, 16, 24, 26, 28, 30, 31, 35],
' assists ': [2, 2, 3, 3, 4, 6, 7, 8, 10, 15]})
#view DataFrame
print (df)
team points assists
0 to 12 2
1 B 14 2
2 C 14 3
3 D 16 3
4 E 24 4
5 F 26 6
6 G 28 7
7:30 8
8 I 31 10
9 D 35 15
Exemplo 1: Calcular quartis para uma coluna
O código a seguir mostra como calcular quartis apenas para a coluna de pontos :
#calculate quartiles for points column
df[' points ']. quantile ([ 0.25 , 0.5 , 0.75 ])
0.25 14.5
0.50 25.0
0.75 29.5
Name: points, dtype: float64
Pelo resultado podemos ver:
- O primeiro quartil é 14,5 .
- O segundo quartil é 25 .
- O terceiro quartil é 29,5 .
Conhecendo apenas esses três valores, temos uma boa ideia de como os valores estão distribuídos na coluna de pontos .
Exemplo 2: Calcular quartis para cada coluna numérica
O código a seguir mostra como calcular quartis para cada coluna numérica no DataFrame:
#calculate quartiles for each numeric column in DataFrame
df. quantile (q=[ 0.25 , 0.5 , 0.75 ], axis= 0 , numeric_only= True )
assist points
0.25 14.5 3.00
0.50 25.0 5.00
0.75 29.5 7.75
A saída exibe os quartis das duas colunas numéricas do DataFrame.
Observe que existem várias maneiras de calcular quartis de uma distribuição.
Consulte a página de documentação do pandas para ver os diferentes métodos que a função pandas quantile() usa para calcular quartis.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:
Como calcular a variação percentual em pandas
Como calcular a porcentagem cumulativa em pandas
Como calcular a porcentagem do total dentro de um grupo em pandas