Google 스프레드시트에서 이상값을 쉽게 찾는 방법


이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값입니다.

우리는 관측치가 세 번째 사분위수 위 사분위수 범위의 1.5배이거나 첫 번째 사분위수 아래 사분위수 범위의 1.5배인 경우 관측치를 이상값으로 정의하는 경우가 많습니다.

참고: 사분위수 범위는 데이터 세트의 세 번째 사분위수(75번째 백분위수)와 첫 번째 사분위수(25번째 백분위수) 간의 차이입니다. 평균 50% 값의 분포를 측정합니다.

다음 단계별 예에서는 이 공식을 사용하여 Google 스프레드시트의 데이터 세트에서 이상값을 찾는 방법을 보여줍니다.

1단계: 데이터 입력

먼저 다음 데이터 세트의 값을 Google 스프레드시트에 입력해 보겠습니다.

2단계: 사분위간 범위 계산

다음으로 데이터 세트의 1사분위수, 3사분위수, 사분위수 범위를 계산해 보겠습니다.

3단계: 이상값 식별

그런 다음 다음 공식을 사용하여 데이터 세트의 이상값에 “1”을 할당할 수 있습니다.

 = IF ( A2 < $B$18 - $B$20 * 1.5 , 1 , IF ( A2 > $B$19 + $B$20 * 1.5 , 1 , 0 ) )

이 공식은 관측치가 세 번째 사분위수 위 사분위수 범위의 1.5배인지, 아니면 첫 번째 사분위수 아래 사분위수 범위의 1.5배인지 확인합니다.

둘 중 하나라도 참이면 관측값에 “1”이 할당되어 이상값으로 지정됩니다.

다음 스크린샷은 실제로 이 수식을 사용하는 방법을 보여줍니다.

Google 스프레드시트에서 이상값 찾기

데이터세트에서 단 하나의 값( 164 ) 만이 이상값으로 판명되는 것을 볼 수 있습니다.

이상치를 처리하는 방법

데이터에 이상치가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.

1. 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요.

가끔 단순 데이터가 잘못 저장되는 경우가 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.

2. 이상값에 새 값을 할당합니다 .

이상값이 데이터 입력 오류의 결과인 경우 데이터 세트의 평균 또는 중앙값과 같은 새 값을 할당하기로 결정할 수 있습니다.

3. 이상값을 제거합니다.

값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서에 이상값을 제거했다는 사실을 꼭 언급하세요.

추가 리소스

다음 튜토리얼에서는 다른 통계 소프트웨어에서 이상값을 제거하는 방법을 설명합니다.

R에서 이상값을 제거하는 방법
Python에서 이상값을 제거하는 방법
SPSS에서 이상값을 제거하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다