Excel에서 이상값을 쉽게 찾는 방법


이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값 입니다.

이상값은 분석 결과에 영향을 미칠 수 있으므로 문제가 될 수 있습니다.

Excel에서 다음 데이터 세트를 사용하여 이상값을 찾는 두 가지 방법을 보여 드리겠습니다.

관련 항목: Excel에서 이상값을 제외하고 평균을 계산하는 방법

방법 1: 사분위수 범위 사용

IQR( 사분위수 범위 )은 데이터 세트에서 75번째 백분위수(Q3)와 25번째 백분위수(Q1) 간의 차이입니다. 평균 50% 값의 분포를 측정합니다.

관측치가 세 번째 사분위수(Q3) 위 사분위수 범위의 1.5배이거나 첫 번째 사분위수(Q1) 아래 사분위수 범위의 1.5배인 경우 관측치를 이상값으로 정의할 수 있습니다.

다음 이미지는 Excel에서 사분위간 범위를 계산하는 방법을 보여줍니다.

그런 다음 위에서 언급한 공식을 사용하여 데이터 세트의 모든 이상값에 “1”을 할당할 수 있습니다.

Excel에서 이상값 찾기

이 데이터세트에서는 단 하나의 값인 164 만이 이상값으로 판명되었습니다.

방법 2: Z-점수 사용

z-점수는 주어진 값이 평균에서 얼마나 많은 표준 편차를 가지고 있는지 알려줍니다. 다음 공식을 사용하여 z-점수를 계산합니다.

z = (X – μ) / σ

금:

  • X는 단일 원시 데이터 값입니다.
  • μ는 모집단 평균입니다.
  • σ는 모집단 표준편차입니다.

z-점수가 -3보다 작거나 3보다 큰 경우 관측치를 이상값으로 정의할 수 있습니다.

다음 이미지는 Excel에서 데이터 세트의 평균 및 표준 편차를 계산하는 방법을 보여줍니다.

그런 다음 평균과 표준 편차를 사용하여 데이터세트의 각 개별 값에 대한 z-점수를 찾을 수 있습니다.

그런 다음 z-점수가 -3보다 작거나 3보다 큰 값에 “1”을 할당할 수 있습니다.

Z-점수를 사용하여 Excel에서 이상값 찾기

이 방법을 사용하면 데이터 세트에 이상값이 없음을 알 수 있습니다.

참고: 때때로 3 대신 2.5의 z-점수가 사용됩니다. 이 경우 개별 값 164 는 z-점수가 2.5보다 크기 때문에 이상값으로 간주됩니다.

z-점수 방법을 사용할 때 이상치로 간주되는 z-점수 값을 판단하려면 판단을 내리십시오.

이상치를 처리하는 방법

데이터에 이상치가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.

1. 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요.

때로는 개인이 데이터를 저장하는 동안 단순히 잘못된 데이터 값을 입력하는 경우도 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.

2. 이상값을 제거합니다.

값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서나 분석에서 이상치를 제거했다는 사실을 꼭 언급하세요.

3. 이상값에 새 값을 할당합니다 .

이상값이 데이터 입력 오류의 결과인 경우 데이터 세트의 평균 또는 중앙값 과 같은 새 값을 할당하기로 결정할 수 있습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다