Intervalo interquartil e desvio padrão: qual a diferença?
O intervalo interquartil e o desvio padrão são duas formas de medir a distribuição de valores em um conjunto de dados.
Este tutorial fornece uma breve explicação de cada métrica, juntamente com as semelhanças e diferenças entre as duas.
Intervalo interquartil
O intervalo interquartil (IQR) de um conjunto de dados é a diferença entre o primeiro quartil (percentil 25) e o terceiro quartil (percentil 75). Mede a distribuição da média de 50% dos valores.
AIQ = Q3 – Q1
Por exemplo, suponha que temos o seguinte conjunto de dados:
Conjunto de dados: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
De acordo com a calculadora do intervalo interquartil, o intervalo interquartil (IQR) para este conjunto de dados é calculado da seguinte forma:
- T1: 12
- T3: 26,5
- AIQ = Q3 – Q1 = 14,5
Isso nos diz que os 50% intermediários dos valores no conjunto de dados têm um desvio de 14,5 .
Desvio padrão
O desvio padrão de um conjunto de dados é uma forma de medir o desvio típico de valores individuais em relação ao valor médio. É calculado da seguinte forma:
s = √(Σ(x i – x ) 2 / (n-1))
Por exemplo, suponha que temos o seguinte conjunto de dados:
Conjunto de dados: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Podemos usar uma calculadora para descobrir que o desvio padrão deste conjunto de dados é 9,25 . Isso nos dá uma ideia de quão longe o valor típico está da média.
Semelhanças e diferenças
O intervalo interquartil e o desvio padrão compartilham a seguinte semelhança:
- Ambas as métricas medem a distribuição de valores em um conjunto de dados.
No entanto, o intervalo interquartil e o desvio padrão têm a seguinte diferença fundamental:
- O intervalo interquartil (IQR) não é afetado por valores discrepantes extremos. Por exemplo, um valor extremamente pequeno ou extremamente grande em um conjunto de dados não afetará o cálculo do IQR porque o IQR usa apenas os valores do 25º percentil e do 75º percentil do conjunto de dados.
- O desvio padrão é afetado por valores extremos. Por exemplo, um valor extremamente grande num conjunto de dados resultará num desvio padrão muito maior, uma vez que o desvio padrão utiliza todos os valores de um conjunto de dados na sua fórmula.
Quando usar cada
Você deve usar o intervalo interquartil para medir a distribuição de valores em um conjunto de dados quando há valores discrepantes extremos.
Por outro lado, você deve usar o desvio padrão para medir a distribuição de valores quando não há valores discrepantes extremos.
Para ilustrar o porquê, considere o seguinte conjunto de dados:
Conjunto de dados: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32
Anteriormente neste artigo, calculamos as seguintes métricas para este conjunto de dados:
- AIQ: 14,5
- Desvio padrão: 9,25
No entanto, considere se o conjunto de dados tinha um valor atípico extremo:
Conjunto de dados: 1, 4, 8, 11, 13, 17, 19, 19, 20, 23, 24, 24, 25, 28, 29, 31, 32, 378
Poderíamos usar uma calculadora para encontrar as seguintes métricas para este conjunto de dados:
- AIQ: 15
- Desvio padrão: 85,02
Observe que o intervalo interquartil quase não muda quando um valor discrepante está presente, enquanto o desvio padrão aumenta de 9,25 para 85,02.
Recursos adicionais
Medidas de tendência central: definição e exemplos
Medidas de dispersão: definição e exemplos
Como encontrar outliers usando intervalo interquartil