Uma explicação simples sobre como interpretar a variação


Nas estatísticas, muitas vezes queremos entender como os valores estão “dispersos” em um conjunto de dados. Para medir isso, costumamos usar as seguintes medidas de dispersão:

  • Intervalo: a diferença entre o maior e o menor valor em um conjunto de dados.
  • O intervalo interquartil: a diferença entre o primeiro quartil e o terceiro quartil de um conjunto de dados (quartis são simplesmente valores que dividem um conjunto de dados em quatro partes iguais).
  • Desvio padrão: uma forma de medir a distância típica entre os valores e a média.
  • Variância: desvio padrão ao quadrado.

Destas quatro medidas, a variância tende a ser a mais difícil de compreender intuitivamente. Este artigo tem como objetivo fornecer uma explicação simples da variação.

Compreendendo o desvio padrão

Antes de podermos entender a variância, devemos primeiro entender o desvio padrão , geralmente denotado por σ .

A fórmula para calcular o desvio padrão é:

σ = √(Σ (x i – μ) 2 / N)

onde μ é a média da população, x i é o i- ésimo elemento da população, N é o tamanho da população e Σ é apenas um símbolo sofisticado que significa “soma”.

Na prática, raramente será necessário calcular o desvio padrão manualmente; em vez disso, você pode usar um software estatístico ou uma calculadora.

No seu nível mais básico, o desvio padrão nos diz a distribuição dos valores dos dados em um conjunto de dados. Para ilustrar isso, considere os três conjuntos de dados a seguir juntamente com seus desvios padrão correspondentes:

[5, 5, 5] desvio padrão = 0 (nenhum spread)

[3, 5, 7] desvio padrão = 1,63 (alguns desvios)

[1, 5, 99] desvio padrão = 45,28 (muito spread)

O termo “desvio padrão” pode ser entendido observando as duas palavras que o compõem:

  • “desvio” – refere-se à distância da média.
  • “padrão” – refere-se à distância “padrão” ou “típica” entre um valor e a média.

Depois de entender o desvio padrão, será muito mais fácil entender a variância.

Compreendendo a lacuna

A variância, geralmente denotada por σ2 , é simplesmente o desvio padrão ao quadrado. A fórmula para encontrar a variância de um conjunto de dados é:

σ 2 = Σ (x i – μ) 2 / N

onde μ é a média da população, x i é o i- ésimo elemento da população, N é o tamanho da população e Σ é apenas um símbolo sofisticado que significa “soma”.

Portanto, se o desvio padrão de um conjunto de dados for 8, a variação seria 8 2 = 64.

Ou, se o desvio padrão de um conjunto de dados for 10, então a variação seria 10 2 = 100.

Ou, se o desvio padrão de um conjunto de dados for 3,7, então a variação seria 3,7 2 = 13,69.

Quanto mais dispersos os valores estiverem em um conjunto de dados, maior será a variância. Para ilustrar isso, considere os três conjuntos de dados a seguir junto com suas variações correspondentes:

[5, 5, 5] variância = 0 (nenhum spread)

[3, 5, 7] variância = 2,67 (alguns desvios)

[1, 5, 99] variação = 2.050,67 (muito spread)

Quando você usaria a variância em vez do desvio padrão?

Depois de ler as explicações acima sobre desvio padrão e variância, você pode estar se perguntando quando usaria a variância em vez do desvio padrão para descrever um conjunto de dados.

Afinal, o desvio padrão nos diz a distância média entre um valor e a média, enquanto a variância nos diz o quadrado desse valor. Parece que o desvio padrão é muito mais fácil de compreender e interpretar.

Na realidade, quase sempre você usará o desvio padrão para descrever a distribuição de valores em um conjunto de dados.

No entanto, a variância pode ser útil ao usar uma técnica como ANOVA ou regressão e tentar explicar a variância total de um modelo devido a fatores específicos.

Por exemplo, você pode querer entender quanta variação nas pontuações dos testes pode ser explicada pelo QI e quanta variação pode ser explicada pelas horas estudadas.

Se 36% da variação se deve ao QI e 64% às horas de estudo, isso é fácil de entender. Mas se usarmos desvios padrão de 6 e 8, será muito menos intuitivo e não fará muito sentido no contexto do problema.

Outro caso em que pode ser melhor usar a variância em vez do desvio padrão é quando você está fazendo um trabalho estatístico teórico.

Nesse caso, é muito mais fácil usar a variância no cálculo, pois não é necessário usar o sinal de raiz quadrada.

Recursos adicionais

Os tutoriais a seguir fornecem informações adicionais sobre variação:

Variância amostral e variância populacional: qual a diferença?
Como calcular a variação amostral e populacional no Excel

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *