O guia completo: quando remover valores discrepantes nos dados
Um outlier é uma observação anormalmente distante de outros valores em um conjunto de dados.
Valores discrepantes podem ser problemáticos porque podem afetar os resultados de uma análise.
No entanto, eles também podem fornecer informações sobre os dados que você estuda, pois podem revelar casos anormais ou indivíduos com características raras.
Em qualquer análise, você deve decidir se deseja remover ou manter os valores discrepantes.
Felizmente, você pode usar o seguinte fluxograma para ajudá-lo a tomar uma decisão:
Vamos dar uma olhada mais de perto em cada pergunta do fluxograma.
O valor discrepante é o resultado de um erro de entrada de dados?
Às vezes, os valores discrepantes em um conjunto de dados são simplesmente o resultado de um erro de entrada de dados.
Por exemplo, suponha que um biólogo colete dados sobre a altura de uma determinada espécie de planta e registre os seguintes dados:
- 6,83 polegadas
- 7,51 polegadas
- 5,21 polegadas
- 5,84 polegadas
- 7,83 polegadas
- 755 polegadas
- 6,53 polegadas
- 6,31 polegadas
- 5,91 polegadas
Obviamente, a entrada para 755 polegadas é uma exceção e provavelmente é o resultado de um erro de entrada de dados. Muito provavelmente a altura deveria ser de 7,55 polegadas, mas foi simplesmente inserida incorretamente.
Se o biólogo mantivesse esta observação e calculasse uma estatística descritiva como a altura média das plantas na amostra, esta observação distorceria enormemente os resultados e daria uma imagem imprecisa da verdadeira altura média das plantas.
Neste cenário (e em cenários semelhantes a este), faz sentido remover este valor discrepante do conjunto de dados porque é um erro e não um ponto de dados legítimo para incluir na análise.
O valor discrepante afeta significativamente os resultados da análise?
Se uma observação for um verdadeiro valor atípico e não for simplesmente o resultado de um erro de entrada de dados, então precisamos examinar se o valor atípico afeta ou não os resultados da análise.
Por exemplo, suponha que um biólogo esteja estudando a relação entre fertilizantes e altura das plantas. Ela deseja ajustar um modelo de regressão linear simples usando fertilizante como variável preditora e altura da planta como variável resposta .
Ele coleta os seguintes dados para 12 fábricas diferentes:
É claro que a última observação é aberrante.
No entanto, se criarmos um gráfico de dispersão para visualizar este conjunto de dados, podemos ver que a linha de regressão não mudaria muito independentemente de incluirmos ou não o outlier:
Nesse cenário, o valor discrepante na verdade não viola nenhuma das suposições de um modelo de regressão linear , portanto, poderíamos mantê-lo no conjunto de dados.
No entanto, suponha que tenhamos o seguinte valor discrepante nos dados:
Obviamente, esse valor discrepante afeta significativamente a linha de regressão, portanto, podemos ajustar um modelo de regressão com o valor discrepante e outro sem, e então relatar os resultados de ambos os modelos de regressão.
O valor discrepante afeta as suposições feitas na análise?
Se um valor discrepante não for o resultado de um erro de entrada de dados e não afetar significativamente os resultados de uma análise, então devemos perguntar se o valor discrepante afeta ou não as hipóteses feitas em uma análise. análise.
Se isso não afetar as suposições, podemos simplesmente mantê-lo nos dados.
No entanto, se isso afetar as suposições, temos várias opções:
1. Remova-o. Podemos simplesmente removê-lo dos dados e anotá-lo ao relatar os resultados.
2. Execute uma transformação nos dados. Em vez de remover o outlier, poderíamos tentar realizar uma transformação nos dados, por exemplo, obtendo a raiz quadrada ou log de todos os valores nos dados. Foi demonstrado que isso reduz os valores discrepantes e muitas vezes torna os dados distribuídos de maneira mais normal .
Independentemente de como você decidir lidar com valores discrepantes em seus dados, você deve anotar sua decisão no resultado de sua análise, juntamente com seu raciocínio.
Recursos adicionais
Os tutoriais a seguir explicam como encontrar e remover valores discrepantes em diferentes softwares estatísticos:
Como encontrar valores discrepantes no Excel
Como encontrar valores discrepantes no Planilhas Google
Como encontrar outliers em R
Como encontrar valores discrepantes em Python
Como encontrar valores discrepantes no SPSS