Como identificar outliers no spss


Um outlier é uma observação anormalmente distante de outros valores em um conjunto de dados. Valores discrepantes podem ser problemáticos porque podem afetar os resultados de uma análise.

Este tutorial explica como identificar e tratar outliers no SPSS.

Como identificar outliers no SPSS

Suponha que temos o seguinte conjunto de dados que mostra a renda anual (em milhares) de 15 pessoas:

Uma maneira de determinar se existem valores discrepantes é criar um boxplot para o conjunto de dados. Para fazer isso, clique na aba Analisar , depois em Estatísticas Descritivas e depois em Explorar :

Na nova janela que aparece, arraste a renda variável para a caixa denominada Lista de dependentes. Em seguida, clique em Estatísticas e certifique-se de que a caixa ao lado de Percentis esteja marcada. Em seguida, clique em Continuar . Em seguida, clique em OK .

Depois de clicar em OK , um boxplot aparecerá:

Boxplot no SPSS

Se não houver círculos ou asteriscos em nenhuma das extremidades do boxplot, isso indica que não há valores discrepantes.

O SPSS considera qualquer valor de dados um valor discrepante se estiver fora dos seguintes intervalos:

  • 3º quartil + 1,5*intervalo interquartil
  • 1º quartil – 1,5*intervalo interquartil

Podemos calcular o intervalo interquartil calculando a diferença entre o 75º e o 25º percentil na linha denominada Tukey Hinges no resultado:

Intervalo interquartil das dobradiças de Tukey no SPSS

Para este conjunto de dados, o intervalo interquartil é 82 – 36 = 46 . Assim, quaisquer valores fora dos seguintes intervalos seriam considerados outliers:

  • 82 + 1,5*46 = 151
  • 36 – 1,5*46 = -33

Obviamente, o rendimento não pode ser negativo, pelo que o limite inferior neste exemplo não é útil. No entanto, qualquer rendimento acima de 151 seria considerado um valor atípico.

Por exemplo, digamos que o maior valor em nosso conjunto de dados seja 152. Aqui está o gráfico de caixa para esse conjunto de dados:

Boxplot com outlier no SPSS

O círculo indica que um valor discrepante está presente nos dados. O número 15 indica qual observação no conjunto de dados é atípica.

O SPSS também considera qualquer valor de dados um valor atípico extremo se estiver fora dos seguintes intervalos:

  • 3º quartil + 3*intervalo interquartil
  • 1º quartil – 3*intervalo interquartil

Portanto, quaisquer valores fora dos intervalos a seguir seriam considerados valores discrepantes extremos neste exemplo:

  • 82 + 3*46 = 220
  • 36 – 3*46 = -102

Por exemplo, suponha que o maior valor em nosso conjunto de dados seja 221. Aqui está o box plot deste conjunto de dados:

Outlier extremo em um boxplot no SPSS

O asterisco (*) indica que um valor extremo está presente nos dados. O número 15 indica qual observação no conjunto de dados é a discrepância extrema.

Como lidar com outliers

Se um valor discrepante estiver presente em seus dados, você terá várias opções:

1. Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados.

Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor foi inserido corretamente e se não houve um erro.

2. Remova o valor discrepante.

Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.

3. Atribua um novo valor ao valor discrepante .

Se o valor discrepante for o resultado de um erro de entrada de dados, você pode decidir atribuir a ele um novo valor, como a média ou mediana do conjunto de dados.

Recursos adicionais

Se você estiver trabalhando com múltiplas variáveis ao mesmo tempo, você pode usar a distância de Mahalanobis para detectar valores discrepantes.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *