Como calcular a distância de mahalanobis no spss
A distância de Mahalanobis é a distância entre dois pontos em um espaço multivariado. É frequentemente usado para detectar valores discrepantes em análises estatísticas envolvendo múltiplas variáveis.
Este tutorial explica como calcular a distância de Mahalanobis no SPSS.
Exemplo: Distância Mahalanobis no SPSS
Suponha que temos o seguinte conjunto de dados que exibe as notas dos exames de 20 alunos junto com o número de horas que eles passaram estudando, o número de exames práticos que fizeram e a nota atual no curso:
Podemos usar as etapas a seguir para calcular a distância de Mahalanobis para cada observação no conjunto de dados para determinar se há algum outlier multivariado.
Passo 1: Selecione a opção Regressão Linear.
Clique na guia Analisar , depois em Regressão e depois em Linear :
Passo 2: Selecione a opção Mahalanobis.
Arraste a pontuação da variável de resposta para a caixa denominada Dependente. Arraste as outras três variáveis preditoras para a caixa denominada Independente(s). Em seguida, clique no botão Salvar . Na nova janela que aparece, certifique-se de que a caixa ao lado de Mahalanobis esteja marcada. Em seguida, clique em Continuar . Em seguida, clique em OK .
Depois de clicar em OK , a distância de Mahalanobis para cada observação no conjunto de dados aparecerá em uma nova coluna intitulada MAH_1 :
Podemos ver que algumas distâncias são muito maiores que outras. Para determinar se alguma das distâncias é estatisticamente significativa, precisamos calcular seus valores p.
Etapa 3: Calcule os valores p de cada distância de Mahalanobis.
Clique na guia Transformação e em Calcular Variável .
Na caixa Variável de destino , escolha um novo nome para a variável que você está criando. Nós pensamos “pvalue”. Na caixa Expressão Numérica , insira o seguinte:
1 – CDF.CHISQ(MAH_1, 3)
Em seguida, clique em OK .
Isso produzirá um valor p que corresponde ao valor do qui-quadrado com 3 graus de liberdade. Usamos 3 graus de liberdade porque existem 3 variáveis preditoras em nosso modelo de regressão.
Etapa 4: interprete os valores p.
Depois de clicar em OK , o valor p para cada distância de Mahalanobis será exibido em uma nova coluna:
Por padrão, o SPSS exibe apenas valores p com duas casas decimais. Você pode aumentar o número de casas decimais clicando em Exibir variáveis na parte inferior do SPSS e aumentando o número na coluna Casas decimais :
Depois de retornar à visualização Dados , você poderá ver cada valor p exibido com cinco casas decimais. Qualquer valor p inferior a 0,001 é considerado um valor discrepante.
Podemos ver que a primeira observação é a única discrepante no conjunto de dados porque tem um valor p menor que 0,001:
Como lidar com outliers
Se um valor discrepante estiver presente em seus dados, você terá várias opções:
1. Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados.
Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor dos dados foi inserido corretamente e se não houve um erro.
2. Remova o valor discrepante.
Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.