Como identificar outliers no spss
Um outlier é uma observação anormalmente distante de outros valores em um conjunto de dados. Valores discrepantes podem ser problemáticos porque podem afetar os resultados de uma análise.
Este tutorial explica como identificar e tratar outliers no SPSS.
Como identificar outliers no SPSS
Suponha que temos o seguinte conjunto de dados que mostra a renda anual (em milhares) de 15 pessoas:
Uma maneira de determinar se existem valores discrepantes é criar um boxplot para o conjunto de dados. Para fazer isso, clique na aba Analisar , depois em Estatísticas Descritivas e depois em Explorar :
Na nova janela que aparece, arraste a renda variável para a caixa denominada Lista de dependentes. Em seguida, clique em Estatísticas e certifique-se de que a caixa ao lado de Percentis esteja marcada. Em seguida, clique em Continuar . Em seguida, clique em OK .
Depois de clicar em OK , um boxplot aparecerá:
Se não houver círculos ou asteriscos em nenhuma das extremidades do boxplot, isso indica que não há valores discrepantes.
O SPSS considera qualquer valor de dados um valor discrepante se estiver fora dos seguintes intervalos:
- 3º quartil + 1,5*intervalo interquartil
- 1º quartil – 1,5*intervalo interquartil
Podemos calcular o intervalo interquartil calculando a diferença entre o 75º e o 25º percentil na linha denominada Tukey Hinges no resultado:
Para este conjunto de dados, o intervalo interquartil é 82 – 36 = 46 . Assim, quaisquer valores fora dos seguintes intervalos seriam considerados outliers:
- 82 + 1,5*46 = 151
- 36 – 1,5*46 = -33
Obviamente, o rendimento não pode ser negativo, pelo que o limite inferior neste exemplo não é útil. No entanto, qualquer rendimento acima de 151 seria considerado um valor atípico.
Por exemplo, digamos que o maior valor em nosso conjunto de dados seja 152. Aqui está o gráfico de caixa para esse conjunto de dados:
O círculo indica que um valor discrepante está presente nos dados. O número 15 indica qual observação no conjunto de dados é atípica.
O SPSS também considera qualquer valor de dados um valor atípico extremo se estiver fora dos seguintes intervalos:
- 3º quartil + 3*intervalo interquartil
- 1º quartil – 3*intervalo interquartil
Portanto, quaisquer valores fora dos intervalos a seguir seriam considerados valores discrepantes extremos neste exemplo:
- 82 + 3*46 = 220
- 36 – 3*46 = -102
Por exemplo, suponha que o maior valor em nosso conjunto de dados seja 221. Aqui está o box plot deste conjunto de dados:
O asterisco (*) indica que um valor extremo está presente nos dados. O número 15 indica qual observação no conjunto de dados é a discrepância extrema.
Como lidar com outliers
Se um valor discrepante estiver presente em seus dados, você terá várias opções:
1. Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados.
Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor foi inserido corretamente e se não houve um erro.
2. Remova o valor discrepante.
Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.
3. Atribua um novo valor ao valor discrepante .
Se o valor discrepante for o resultado de um erro de entrada de dados, você pode decidir atribuir a ele um novo valor, como a média ou mediana do conjunto de dados.
Recursos adicionais
Se você estiver trabalhando com múltiplas variáveis ao mesmo tempo, você pode usar a distância de Mahalanobis para detectar valores discrepantes.