Como os outliers afetam a média?
Nas estatísticas, a média de um conjunto de dados é o valor médio. É útil saber isso porque nos dá uma ideia de onde está o “centro” do conjunto de dados. É calculado usando a fórmula simples:
média = (soma das observações) / (número de observações)
Por exemplo, suponha que temos o seguinte conjunto de dados:
[1, 4, 5, 6, 7]
A média do conjunto de dados é (1+4+5+6+7) / (5) = 4,6
Mas embora a média seja útil e fácil de calcular, ela tem uma desvantagem: pode ser afetada por valores discrepantes . Em particular, quanto menor for o conjunto de dados, mais um valor atípico poderá afetar a média.
Para ilustrar isso, considere o seguinte exemplo clássico:
Dez homens estão sentados num bar. A renda média de dez homens é de US$ 50 mil. De repente, um homem sai e Bill Gates entra. Hoje, a renda média dos dez homens do bar é de US$ 40 milhões.
Este exemplo mostra como um valor discrepante (Bill Gates) pode afetar significativamente a média.
Valores discrepantes pequenos e grandes
Um valor discrepante pode afetar a média por ser anormalmente pequeno ou anormalmente grande. No exemplo anterior, Bill Gates tinha um rendimento invulgarmente elevado, tornando a média enganosa.
No entanto, um valor invulgarmente baixo também pode afectar a média. Para ilustrar isso, considere o seguinte exemplo:
Dez alunos fazem um exame e obtêm as seguintes notas:
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
A pontuação média é 84,6 .
No entanto, se removermos a pontuação “0” do conjunto de dados, a pontuação média passa a ser 94 .
A pontuação incomumente baixa de um aluno reduz a média de todo o conjunto de dados.
Tamanho da amostra e valores discrepantes
Quanto menor o tamanho da amostra do conjunto de dados, maior a probabilidade de um valor discrepante afetar a média.
Por exemplo, suponha que temos um conjunto de dados de 100 notas de exames em que todos os alunos obtiveram pontuação de pelo menos 90 ou mais, exceto um aluno que obteve nota zero:
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
A média acaba sendo 93,18 . Se retirássemos o “0” do conjunto de dados, a média seria 94,12 . Esta é uma diferença relativamente pequena. Isto mostra que mesmo um valor extremo extremo tem apenas um efeito mínimo se o conjunto de dados for suficientemente grande.
Como lidar com outliers
Se estiver preocupado com a possibilidade de haver algo atípico em seu conjunto de dados, você tem várias opções:
- Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados. Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor foi inserido corretamente e se não houve um erro.
- Atribua um novo valor ao outlier . Se o valor discrepante for o resultado de um erro de entrada de dados, você pode decidir atribuir a ele um novo valor, como a média ou mediana do conjunto de dados.
- Remova o valor discrepante. Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.
Use a mediana
Outra forma de encontrar o “centro” de um conjunto de dados é usar a mediana , obtida ordenando todos os valores individuais em um conjunto de dados do menor para o maior e encontrando o valor mediano.
Devido à forma como é calculada, a mediana é menos afetada por valores discrepantes e captura melhor a localização central de uma distribuição quando há valores discrepantes.
Por exemplo, considere o gráfico a seguir que mostra a metragem quadrada das casas em um determinado bairro:
A média é fortemente influenciada por algumas casas extremamente grandes, enquanto a mediana não. Assim, a mediana captura melhor a metragem quadrada “típica” de uma casa naquele bairro do que a média.
Leitura adicional:
Medidas de tendência central – média, mediana e moda
Teste Q de Dixon para detectar outliers
Calculadora de valores discrepantes