쇼브네 기준: 정의 및 예
이상값 은 데이터 세트의 다른 값과 비정상적으로 멀리 떨어져 있는 관측값 입니다. 이상값은 분석 결과에 영향을 미칠 수 있으므로 문제가 될 수 있습니다.
데이터 세트에서 이상값을 식별하는 한 가지 방법은 다음 프로세스를 사용하는 Chauvenet 기준을 사용하는 것입니다.
1. 데이터 세트의 각 개별 값 x i 에 대해 다음과 같이 평균과의 편차를 계산합니다.
편차 = |x i – x | /에스
여기서 x 는 표본 평균이고 s 는 표본 표준 편차입니다.
2. 각 개별 값의 편차를 아래 Chauvenet 기준 표의 임계 값과 비교하십시오. 표에 나온 것보다 편차가 큰 개별 데이터 값의 경우 해당 데이터 값을 이상값으로 보고합니다.

쇼브네 기준: 예
다음과 같은 15개 값의 데이터 세트가 있다고 가정합니다.

이 데이터 세트의 표본 평균은 x = 17.067 이고 표본 표준 편차는 s = 10.096 입니다. 각 개별 데이터 값에 대해 다음과 같이 편차를 계산할 수 있습니다.
편차 = |x i – x | /에스
예를 들어:
- 첫 번째 데이터 값의 편차는 |4 – 17.067|입니다. / 10,096 = 1,294 .
- 첫 번째 데이터 값의 편차는 |6 – 17.067|입니다. / 10.096 = 1.096 .
등등.
동일한 공식을 사용하여 각 개별 데이터 값의 편차를 계산할 수 있습니다.

그런 다음 Chauvenet 기준 표를 참조하여 표본 크기 n=15에 해당하는 임계값이 2.128 임을 확인할 수 있습니다. 따라서 편차가 2.128보다 큰 값은 이상값으로 간주될 수 있습니다.
값 42 의 편차는 2.128보다 큰 것으로 나타났습니다.

따라서 값 42는 이 데이터 세트의 유일한 이상값입니다.
Chauvenet 기준 사용에 관한 주의사항
Chauvenet 기준은 데이터 세트의 값이 정규 분포를 따른다고 가정합니다. 이 가정이 충족되지 않으면 Chauvenet 기준을 사용하여 이상값을 식별하는 것이 유효하지 않을 가능성이 높습니다.
이 방법을 사용하여 값이 이상값임을 발견한 경우 먼저 해당 값이 데이터 입력 오류의 결과가 아닌지 확인해야 합니다. 때로는 데이터가 잘못 입력되는 경우도 있습니다.
값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 결과를 보고할 때 이상값을 제거했다는 점을 꼭 언급해 주세요.
또한 이 방법은 지정된 데이터 세트에서 한 번만 사용해야 합니다. 예를 들어, 이 기준을 사용하여 이전 예에서 값 42를 이상값으로 식별하고 해당 값을 데이터세트에서 제거한다고 가정해 보겠습니다.
그러면 더 많은 이상값을 찾기 위해 표본 평균 과 표본 표준 편차를 다시 계산하고 편차를 다시 계산해서는 안 됩니다.