Google 스프레드시트에서 이상값을 쉽게 찾는 방법
이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값입니다.
우리는 관측치가 세 번째 사분위수 위 사분위수 범위의 1.5배이거나 첫 번째 사분위수 아래 사분위수 범위의 1.5배인 경우 관측치를 이상값으로 정의하는 경우가 많습니다.
참고: 사분위수 범위는 데이터 세트의 세 번째 사분위수(75번째 백분위수)와 첫 번째 사분위수(25번째 백분위수) 간의 차이입니다. 평균 50% 값의 분포를 측정합니다.
다음 단계별 예에서는 이 공식을 사용하여 Google 스프레드시트의 데이터 세트에서 이상값을 찾는 방법을 보여줍니다.
1단계: 데이터 입력
먼저 다음 데이터 세트의 값을 Google 스프레드시트에 입력해 보겠습니다.
2단계: 사분위간 범위 계산
다음으로 데이터 세트의 1사분위수, 3사분위수, 사분위수 범위를 계산해 보겠습니다.
3단계: 이상값 식별
그런 다음 다음 공식을 사용하여 데이터 세트의 이상값에 “1”을 할당할 수 있습니다.
= IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )
이 공식은 관측치가 세 번째 사분위수 위 사분위수 범위의 1.5배인지, 아니면 첫 번째 사분위수 아래 사분위수 범위의 1.5배인지 확인합니다.
둘 중 하나라도 참이면 관측값에 “1”이 할당되어 이상값으로 지정됩니다.
다음 스크린샷은 실제로 이 수식을 사용하는 방법을 보여줍니다.
데이터세트에서 단 하나의 값( 164 ) 만이 이상값으로 판명되는 것을 볼 수 있습니다.
이상치를 처리하는 방법
데이터에 이상치가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.
1. 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요.
가끔 단순 데이터가 잘못 저장되는 경우가 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.
2. 이상값에 새 값을 할당합니다 .
이상값이 데이터 입력 오류의 결과인 경우 데이터 세트의 평균 또는 중앙값과 같은 새 값을 할당하기로 결정할 수 있습니다.
3. 이상값을 제거합니다.
값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서에 이상값을 제거했다는 사실을 꼭 언급하세요.
추가 리소스
다음 튜토리얼에서는 다른 통계 소프트웨어에서 이상값을 제거하는 방법을 설명합니다.