Vantagens e desvantagens de usar o desvio padrão
O desvio padrão de um conjunto de dados é uma forma de medir o desvio típico de valores individuais em relação ao valor médio.
A fórmula para calcular um desvio padrão amostral, denotado s , é:
s = √ Σ( xi – x̄) 2 / (n – 1)
Ouro:
- Σ : Um símbolo que significa “soma”
- x i : O i- ésimo valor em um conjunto de dados
- x̄ : A amostra significa
- n : O tamanho da amostra
Existem duas vantagens principais em usar o desvio padrão para descrever a distribuição de valores em um conjunto de dados:
Vantagem nº 1: o desvio padrão usa todas as observações de um conjunto de dados em seu cálculo. Em estatística, geralmente dizemos que é bom poder usar todas as observações de um conjunto de dados para realizar cálculos, porque estamos usando todas as “informações” possíveis disponíveis no conjunto de dados.
Vantagem nº 2: O desvio padrão é fácil de interpretar . O desvio padrão é um valor único que nos dá uma boa ideia de quão longe a observação “típica” em um conjunto de dados está do valor médio.
No entanto, usar o desvio padrão tem uma grande desvantagem:
Desvantagem nº 1: o desvio padrão pode ser afetado por valores discrepantes . Quando valores discrepantes extremos estão presentes em um conjunto de dados, isso pode inflar o valor do desvio padrão e, assim, dar uma ideia enganosa da distribuição dos valores em um conjunto de dados.
Os exemplos a seguir fornecem mais informações sobre as vantagens e desvantagens do uso do desvio padrão.
Vantagem nº 1: o desvio padrão usa todas as observações
Suponha que temos o seguinte conjunto de dados que mostra a distribuição das notas dos exames dos alunos de uma turma:
Avaliações: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Podemos usar uma calculadora ou software estatístico para descobrir que o desvio padrão amostral deste conjunto de dados é 8,46.
A vantagem de usar o desvio padrão neste exemplo é que usamos todas as observações possíveis no conjunto de dados para encontrar a “distribuição” típica de valores.
Em contrapartida, poderíamos usar outra métrica, como o intervalo interquartil, para medir a distribuição de valores neste conjunto de dados.
Podemos usar uma calculadora para descobrir que o intervalo interquartil é 17,5 . Isso representa a lacuna entre os 50% intermediários dos valores no conjunto de dados.
Agora, suponha que alteremos o valor mais baixo no conjunto de dados para muito menor:
Avaliações: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Podemos usar uma calculadora para descobrir que o desvio padrão da amostra é 18,37 .
No entanto, o intervalo interquartil ainda é 17,5 porque nenhum dos 50% intermediários dos valores é afetado.
Isso mostra que o desvio padrão da amostra leva em consideração todas as observações do conjunto de dados em seu cálculo, ao contrário de outras medidas de dispersão.
Vantagem nº 2: o desvio padrão é fácil de interpretar
Lembre-se do seguinte conjunto de dados que mostra a distribuição das notas dos exames dos alunos de uma turma:
Avaliações: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92
Usamos uma calculadora para descobrir que o desvio padrão amostral desse conjunto de dados era 8,46 .
Isto é fácil de interpretar porque significa simplesmente que o desvio de uma pontuação “típica” de um exame é de aproximadamente 8,46 em relação à pontuação média do exame.
Por outro lado, outras medidas de dispersão não são tão simples de interpretar.
Por exemplo, um coeficiente de variação é outra medida de dispersão que representa a razão entre o desvio padrão e a média amostral.
Coeficiente de variação: s/x̄
Neste exemplo, a nota média do exame é 81,46, portanto o coeficiente de variação é calculado da seguinte forma: 8,46 / 81,46 = 0,104 .
Isso representa a razão entre o desvio padrão amostral e a média amostral, o que pode ser útil para comparar a distribuição de valores em vários conjuntos de dados, mas não é muito simples de interpretar como uma métrica em si.
Desvantagem nº 1: o desvio padrão pode ser afetado por valores discrepantes
Suponha que temos o seguinte conjunto de dados contendo informações salariais de 10 funcionários (em milhares de dólares) em uma empresa:
Salários: 44, 48, 57, 68, 70, 71, 73, 79, 84, 94
O desvio padrão amostral dos salários é de aproximadamente 15,57 .
Agora suponha que temos exatamente o mesmo conjunto de dados, mas o salário mais alto é muito maior:
Salários: 44, 48, 57, 68, 70, 71, 73, 79, 84, 895
O desvio padrão amostral dos salários neste conjunto de dados é de aproximadamente 262,47 .
Ao incluir apenas um valor atípico extremo, o desvio padrão é bastante afetado e agora dá uma ideia enganosa da distribuição salarial “típica”.
Nota : Quando valores discrepantes estão presentes em um conjunto de dados, o intervalo interquartil pode fornecer uma melhor medida de dispersão porque não é afetado pelos valores discrepantes.
Recursos adicionais
Os tutoriais a seguir fornecem informações adicionais sobre o uso do desvio padrão em estatísticas:
Intervalo interquartil e desvio padrão: a diferença
Coeficiente de variação versus desvio padrão: a diferença
População vs. Desvio padrão da amostra: quando usar cada um