Spss에서 이상값을 식별하는 방법
이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값입니다. 이상값은 분석 결과에 영향을 미칠 수 있으므로 문제가 될 수 있습니다.
이 튜토리얼에서는 SPSS에서 이상값을 식별하고 처리하는 방법을 설명합니다.
SPSS에서 이상값을 식별하는 방법
15명의 연간 소득(천 단위)을 보여주는 다음 데이터 세트가 있다고 가정합니다.
이상값이 있는지 확인하는 한 가지 방법은 데이터 세트에 대한 상자 그림을 만드는 것입니다. 이렇게 하려면 분석 탭을 클릭한 다음 기술 통계 , 탐색을 차례로 클릭합니다.
나타나는 새 창에서 소득 변수를 부양가족 목록 상자로 끌어다 놓습니다. 그런 다음 통계를 클릭하고 백분위 수 옆의 확인란이 선택되어 있는지 확인하세요. 그런 다음 계속 을 클릭합니다. 그런 다음 확인을 클릭합니다.
OK 를 클릭하면 상자 그림이 나타납니다.
상자 그림의 양쪽 끝에 원이나 별표가 없으면 이상값이 없음을 나타냅니다.
SPSS는 데이터 값이 다음 범위를 벗어나는 경우 이상값으로 간주합니다.
- 3사분위수 + 1.5*사분위간 범위
- 1사분위수 – 1.5*사분위간 범위
결과에서 Tukey Hinges 라고 표시된 행에서 75번째 백분위수와 25번째 백분위수 사이의 차이를 취하여 사분위수 범위를 계산할 수 있습니다.
이 데이터 세트의 경우 사분위간 범위는 82 – 36 = 46 입니다. 따라서 다음 범위를 벗어나는 모든 값은 이상값으로 간주됩니다.
- 82 + 1.5*46 = 151
- 36 – 1.5*46 = -33
분명히 소득은 음수일 수 없으므로 이 예의 하한은 유용하지 않습니다. 그러나 151을 초과하는 소득은 이상값으로 간주됩니다.
예를 들어 데이터 세트에서 가장 큰 값이 152라고 가정해 보겠습니다. 해당 데이터 세트에 대한 상자 그림은 다음과 같습니다.
원은 데이터에 이상치가 존재함을 나타냅니다. 숫자 15는 데이터 세트의 어떤 관측치가 이상치인지 나타냅니다.
또한 SPSS는 다음 범위를 벗어나는 데이터 값을 극단적인 이상값 으로 간주합니다.
- 3사분위수 + 3*사분위간 범위
- 1사분위수 – 3*사분위간 범위
따라서 다음 범위를 벗어나는 모든 값은 이 예에서 극단적인 이상값으로 간주됩니다.
- 82 + 3*46 = 220
- 36 – 3*46 = -102
예를 들어 데이터 세트에서 가장 큰 값이 221이라고 가정합니다. 다음은 이 데이터 세트의 상자 그림입니다.
별표(*)는 데이터에 극단적인 특이치가 존재함을 나타냅니다. 숫자 15는 데이터세트에서 어떤 관측값이 극단적인 이상값인지 나타냅니다.
이상치를 처리하는 방법
데이터에 이상치가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.
1. 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요.
때로는 개인이 데이터를 저장하는 동안 단순히 잘못된 데이터 값을 입력하는 경우도 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.
2. 이상값을 제거합니다.
값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서나 분석에서 이상치를 제거했다는 사실을 꼭 언급하세요.
3. 이상값에 새 값을 할당합니다 .
이상값이 데이터 입력 오류의 결과인 것으로 판명되면 데이터 세트의 평균이나 중앙값 과 같은 새 값을 할당하기로 결정할 수 있습니다.
추가 리소스
한 번에 여러 변수를 사용하는 경우 Mahalanobis 거리를 사용하여 이상값을 감지할 수 있습니다.