Spss에서 mahalanobis 거리를 계산하는 방법
마할라노비스 거리는 다변량 공간에서 두 점 사이의 거리입니다. 이는 여러 변수를 포함하는 통계 분석에서 이상값을 탐지하는 데 자주 사용됩니다.
이 튜토리얼에서는 SPSS에서 Mahalanobis 거리를 계산하는 방법을 설명합니다.
예: SPSS의 Mahalanobis 거리
20명의 학생의 시험 점수와 함께 공부한 시간, 응시한 연습 시험 횟수, 해당 과정의 현재 성적을 표시하는 다음 데이터세트가 있다고 가정합니다.
다음 단계를 사용하여 데이터세트의 각 관측값에 대한 Mahalanobis 거리를 계산하여 다변량 이상값이 있는지 확인할 수 있습니다.
1단계: 선형 회귀 옵션을 선택합니다.
분석 탭, 회귀 , 선형을 차례로 클릭합니다.
2단계: Mahalanobis 옵션을 선택하세요.
반응 변수 점수를 종속이라고 표시된 상자로 끌어옵니다. 나머지 3개의 예측변수를 독립(Independent(s))이라고 표시된 상자로 끌어옵니다. 그런 다음 저장 버튼을 클릭합니다. 나타나는 새 창에서 Mahalanobis 옆의 상자가 선택되어 있는지 확인하십시오. 그런 다음 계속 을 클릭합니다. 그런 다음 확인을 클릭합니다.
확인을 클릭하면 데이터 세트의 각 관측값에 대한 Mahalanobis 거리가 MAH_1 이라는 새 열에 나타납니다.
우리는 어떤 거리가 다른 거리보다 훨씬 더 크다는 것을 알 수 있습니다. 거리 중 통계적으로 유의미한 것이 있는지 확인하려면 해당 거리의 p-값을 계산해야 합니다.
3단계: 각 마할라노비스 거리의 p-값을 계산합니다.
변환 탭을 클릭한 다음 변수 계산 을 클릭합니다 .
대상 변수 상자에서 생성 중인 변수의 새 이름을 선택합니다. 우리는 “pvalue”를 생각합니다. 숫자 표현식 상자에 다음을 입력합니다.
1 – CDF.CHISQ(MAH_1, 3)
그런 다음 확인을 클릭합니다.
그러면 자유도가 3인 카이제곱 값에 해당하는 p-값이 생성됩니다. 회귀 모델에는 3개의 예측 변수가 있으므로 3 개의 자유도를 사용합니다.
4단계: p-값을 해석합니다.
확인을 클릭하면 각 Mahalanobis 거리에 대한 p-값이 새 열에 표시됩니다.
기본적으로 SPSS는 소수점 이하 두 자리의 p-값만 표시합니다. SPSS 하단에 있는 변수 표시 를 클릭하고 소수 자릿수 열의 숫자를 늘려 소수 자릿수를 늘릴 수 있습니다.
데이터 보기 로 돌아가면 소수점 다섯 자리까지 표시된 각 p-값을 볼 수 있습니다. 0.001보다 작은 p-값은 이상값으로 간주됩니다.
첫 번째 관측값은 p-값이 0.001보다 작기 때문에 데이터세트의 유일한 이상값임을 알 수 있습니다.
이상치를 처리하는 방법
데이터에 이상치가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.
1. 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요.
때로는 개인이 데이터를 저장하는 동안 단순히 잘못된 데이터 값을 입력하는 경우도 있습니다. 이상값이 있는 경우 먼저 데이터 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.
2. 이상값을 제거합니다.
값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서나 분석에서 이상치를 제거했다는 사실을 꼭 언급하세요.