Uma explicação simples sobre como interpretar a variação
Nas estatísticas, muitas vezes queremos entender como os valores estão “dispersos” em um conjunto de dados. Para medir isso, costumamos usar as seguintes medidas de dispersão:
- Intervalo: a diferença entre o maior e o menor valor em um conjunto de dados.
- O intervalo interquartil: a diferença entre o primeiro quartil e o terceiro quartil de um conjunto de dados (quartis são simplesmente valores que dividem um conjunto de dados em quatro partes iguais).
- Desvio padrão: uma forma de medir a distância típica entre os valores e a média.
- Variância: desvio padrão ao quadrado.
Destas quatro medidas, a variância tende a ser a mais difícil de compreender intuitivamente. Este artigo tem como objetivo fornecer uma explicação simples da variação.
Compreendendo o desvio padrão
Antes de podermos entender a variância, devemos primeiro entender o desvio padrão , geralmente denotado por σ .
A fórmula para calcular o desvio padrão é:
σ = √(Σ (x i – μ) 2 / N)
onde μ é a média da população, x i é o i- ésimo elemento da população, N é o tamanho da população e Σ é apenas um símbolo sofisticado que significa “soma”.
Na prática, raramente será necessário calcular o desvio padrão manualmente; em vez disso, você pode usar um software estatístico ou uma calculadora.
No seu nível mais básico, o desvio padrão nos diz a distribuição dos valores dos dados em um conjunto de dados. Para ilustrar isso, considere os três conjuntos de dados a seguir juntamente com seus desvios padrão correspondentes:
[5, 5, 5] desvio padrão = 0 (nenhum spread)
[3, 5, 7] desvio padrão = 1,63 (alguns desvios)
[1, 5, 99] desvio padrão = 45,28 (muito spread)
O termo “desvio padrão” pode ser entendido observando as duas palavras que o compõem:
- “desvio” – refere-se à distância da média.
- “padrão” – refere-se à distância “padrão” ou “típica” entre um valor e a média.
Depois de entender o desvio padrão, será muito mais fácil entender a variância.
Compreendendo a lacuna
A variância, geralmente denotada por σ2 , é simplesmente o desvio padrão ao quadrado. A fórmula para encontrar a variância de um conjunto de dados é:
σ 2 = Σ (x i – μ) 2 / N
onde μ é a média da população, x i é o i- ésimo elemento da população, N é o tamanho da população e Σ é apenas um símbolo sofisticado que significa “soma”.
Portanto, se o desvio padrão de um conjunto de dados for 8, a variação seria 8 2 = 64.
Ou, se o desvio padrão de um conjunto de dados for 10, então a variação seria 10 2 = 100.
Ou, se o desvio padrão de um conjunto de dados for 3,7, então a variação seria 3,7 2 = 13,69.
Quanto mais dispersos os valores estiverem em um conjunto de dados, maior será a variância. Para ilustrar isso, considere os três conjuntos de dados a seguir junto com suas variações correspondentes:
[5, 5, 5] variância = 0 (nenhum spread)
[3, 5, 7] variância = 2,67 (alguns desvios)
[1, 5, 99] variação = 2.050,67 (muito spread)
Quando você usaria a variância em vez do desvio padrão?
Depois de ler as explicações acima sobre desvio padrão e variância, você pode estar se perguntando quando usaria a variância em vez do desvio padrão para descrever um conjunto de dados.
Afinal, o desvio padrão nos diz a distância média entre um valor e a média, enquanto a variância nos diz o quadrado desse valor. Parece que o desvio padrão é muito mais fácil de compreender e interpretar.
Na realidade, quase sempre você usará o desvio padrão para descrever a distribuição de valores em um conjunto de dados.
No entanto, a variância pode ser útil ao usar uma técnica como ANOVA ou regressão e tentar explicar a variância total de um modelo devido a fatores específicos.
Por exemplo, você pode querer entender quanta variação nas pontuações dos testes pode ser explicada pelo QI e quanta variação pode ser explicada pelas horas estudadas.
Se 36% da variação se deve ao QI e 64% às horas de estudo, isso é fácil de entender. Mas se usarmos desvios padrão de 6 e 8, será muito menos intuitivo e não fará muito sentido no contexto do problema.
Outro caso em que pode ser melhor usar a variância em vez do desvio padrão é quando você está fazendo um trabalho estatístico teórico.
Nesse caso, é muito mais fácil usar a variância no cálculo, pois não é necessário usar o sinal de raiz quadrada.
Recursos adicionais
Os tutoriais a seguir fornecem informações adicionais sobre variação:
Variância amostral e variância populacional: qual a diferença?
Como calcular a variação amostral e populacional no Excel