사분위수 범위를 사용하여 이상값을 찾는 방법


이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값 입니다. 이상값은 분석 결과에 영향을 미칠 수 있으므로 문제가 될 수 있습니다.

데이터 세트에서 이상값을 감지하는 일반적인 방법은 사분위간 범위를 사용하는 것입니다.

종종 IQR로 약칭되는 사분위수 범위는 데이터 세트에서 25번째 백분위수(Q1)와 75번째 백분위수(Q3) 사이의 차이입니다. 평균 50% 값의 분포를 측정합니다.

널리 사용되는 방법은 관측값이 IQR보다 1.5배 높거나 IQR보다 1.5배 낮을 경우 관측값을 이상값으로 선언하는 것입니다.

IQR로 이상값 찾기

이 튜토리얼에서는 이 방법을 사용하여 데이터세트에서 이상값을 찾는 방법에 대한 단계별 예를 제공합니다.

1단계: 데이터 생성

다음과 같은 데이터 세트가 있다고 가정합니다.

2단계: 1사분위수와 3사분위수 식별

첫 번째 사분위수는 5 이고 세 번째 사분위수는 20.75 입니다.

따라서 사분위간 범위는 20.75 -5 = 15.75 가 됩니다.

3단계: 하한과 상한 찾기

하한은 다음과 같이 계산됩니다.

하한 = Q1 – 1.5*IQR = 5 – 1.5*15.75 = -18.625

그리고 상한선은 다음과 같이 계산됩니다.

상한 = Q3 + 1.5*IQR = 20.75 + 1.5*15.75 = 44.375

IQR 방법으로 이상값 찾기

4단계: 이상값 식별

하한보다 낮거나 상한보다 높은 값을 가진 데이터세트의 유일한 관측값은 46 입니다. 따라서 이것이 이 데이터세트의 유일한 이상값입니다.

사분위수 범위에서 이상값을 찾는 예

참고: 이 이상값 경계 계산기를 사용하면 지정된 데이터 세트에서 이상값의 상한 및 하한을 자동으로 찾을 수 있습니다.

실제로 이상값을 찾는 방법

다음 튜토리얼에서는 다양한 통계 소프트웨어에서 사분위간 범위를 사용하여 이상값을 찾는 방법을 설명합니다.

Excel에서 이상값을 찾는 방법
R에서 이상값을 찾는 방법
Python에서 이상값을 찾는 방법
SPSS에서 이상값을 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다