Como calcular a distância de mahalanobis no spss


A distância de Mahalanobis é a distância entre dois pontos em um espaço multivariado. É frequentemente usado para detectar valores discrepantes em análises estatísticas envolvendo múltiplas variáveis.

Este tutorial explica como calcular a distância de Mahalanobis no SPSS.

Exemplo: Distância Mahalanobis no SPSS

Suponha que temos o seguinte conjunto de dados que exibe as notas dos exames de 20 alunos junto com o número de horas que eles passaram estudando, o número de exames práticos que fizeram e a nota atual no curso:

Podemos usar as etapas a seguir para calcular a distância de Mahalanobis para cada observação no conjunto de dados para determinar se há algum outlier multivariado.

Passo 1: Selecione a opção Regressão Linear.

Clique na guia Analisar , depois em Regressão e depois em Linear :

Passo 2: Selecione a opção Mahalanobis.

Arraste a pontuação da variável de resposta para a caixa denominada Dependente. Arraste as outras três variáveis preditoras para a caixa denominada Independente(s). Em seguida, clique no botão Salvar . Na nova janela que aparece, certifique-se de que a caixa ao lado de Mahalanobis esteja marcada. Em seguida, clique em Continuar . Em seguida, clique em OK .

Distância Mahalanobis em SPSS

Depois de clicar em OK , a distância de Mahalanobis para cada observação no conjunto de dados aparecerá em uma nova coluna intitulada MAH_1 :

Podemos ver que algumas distâncias são muito maiores que outras. Para determinar se alguma das distâncias é estatisticamente significativa, precisamos calcular seus valores p.

Etapa 3: Calcule os valores p de cada distância de Mahalanobis.

Clique na guia Transformação e em Calcular Variável .

Na caixa Variável de destino , escolha um novo nome para a variável que você está criando. Nós pensamos “pvalue”. Na caixa Expressão Numérica , insira o seguinte:

1 – CDF.CHISQ(MAH_1, 3)

Em seguida, clique em OK .

Isso produzirá um valor p que corresponde ao valor do qui-quadrado com 3 graus de liberdade. Usamos 3 graus de liberdade porque existem 3 variáveis preditoras em nosso modelo de regressão.

Etapa 4: interprete os valores p.

Depois de clicar em OK , o valor p para cada distância de Mahalanobis será exibido em uma nova coluna:

Valores P para distância de Mahalanobis no SPSS

Por padrão, o SPSS exibe apenas valores p com duas casas decimais. Você pode aumentar o número de casas decimais clicando em Exibir variáveis na parte inferior do SPSS e aumentando o número na coluna Casas decimais :

Depois de retornar à visualização Dados , você poderá ver cada valor p exibido com cinco casas decimais. Qualquer valor p inferior a 0,001 é considerado um valor discrepante.

Podemos ver que a primeira observação é a única discrepante no conjunto de dados porque tem um valor p menor que 0,001:

Como lidar com outliers

Se um valor discrepante estiver presente em seus dados, você terá várias opções:

1. Certifique-se de que o valor discrepante não seja resultado de um erro de entrada de dados.

Às vezes, um indivíduo simplesmente insere o valor errado dos dados ao salvar os dados. Se houver um valor discrepante, primeiro verifique se o valor dos dados foi inserido corretamente e se não houve um erro.

2. Remova o valor discrepante.

Se o valor for realmente atípico, você poderá optar por removê-lo se ele tiver um impacto significativo em sua análise geral. Apenas certifique-se de mencionar em seu relatório ou análise final que você removeu um valor discrepante.

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *