Excel에서 grubbs의 테스터를 실행하는 방법
Grubbs 테스트는 데이터 세트에서 이상값의 존재를 식별하는 데 사용할 수 있는 통계 테스트입니다. 이 테스트를 사용하려면 분석 중인 데이터 세트가 대략 정규 분포를 따라야 하며 이상적으로는 최소 7개의 관측치를 포함해야 합니다.
참고: 데이터 세트에 여러 개의 이상값이 있다고 생각되면 이상값에 대한 일반화된 극단적 학생 격차 테스트를 대신 사용해야 합니다.
데이터세트의 최대값이 이상치라고 판단되면 검정 통계량은 다음과 같이 계산됩니다.
G = (x 최대 – x ) / s
데이터세트의 최소값이 이상치라고 판단되면 검정 통계량은 다음과 같이 계산됩니다.
G = ( x – x 분 ) / 초
그리고 데이터 세트의 최대값 또는 최소값이 이상값인지 확실하지 않고 양측 검정을 수행하려는 경우 검정 통계량은 다음과 같이 계산됩니다.
G = 최대|x i – x | /에스
여기서 x 는 표본 평균이고 s 는 표본 표준 편차입니다.
테스트의 임계값은 다음과 같이 계산됩니다.
G 임계 = (n-1)t 임계 / √[n(n-2 + t 2 임계 )]
여기서 t 임계 는 자유도가 n-2인 t 분포의 임계값이고 유의 수준은 단측 검정의 경우 α/n이고 양측 검정의 경우 α/(2n)입니다.
예: Excel의 Grubbs 테스트
다음 데이터 세트에서 값 60이 이상값인지 여부를 확인합니다.

1단계: 먼저 데이터가 대략적으로 정규 분포를 따르는지 확인해야 합니다. 이를 위해 히스토그램을 만들어 분포가 대략 종 모양인지 확인할 수 있습니다. 다음 스크린샷은 데이터 분석 도구를 사용하여 Excel에서 히스토그램을 만드는 방법을 보여줍니다.

히스토그램을 보면 데이터가 대략 정규 분포를 따르는 것을 볼 수 있습니다. 이는 Grubbs 테스트를 수행할 수 있음을 의미합니다.

2단계: 다음으로 Grubbs 테스트를 수행하여 값 60이 실제로 데이터세트의 이상값인지 확인합니다. 아래 스크린샷은 Grubbs 테스트를 수행하는 데 사용되는 공식을 보여줍니다.

셀 D4의 검정 통계량 G 는 3.603219 입니다.
셀 D11의 임계값 G 임계 는 2.556581 입니다. 검정 통계량이 임계값보다 크므로 이는 값 60이 실제로 이 데이터 세트에서 이상값임을 의미합니다.
이상값이 식별된 경우 수행할 작업
Grubbs 테스트가 데이터 세트에서 이상값을 식별하는 경우 다음과 같은 몇 가지 옵션이 있습니다.
- 값이 오타나 데이터 입력 오류가 아닌지 다시 확인하세요. 때로는 데이터 세트에서 이상치로 나타나는 값이 단순히 데이터 입력 중 개인이 작성한 오타일 수도 있습니다. 추가 결정을 내리기 전에 돌아가서 값이 올바르게 입력되었는지 확인하세요.
- 이상값에 새 값을 할당합니다 . 이상값이 오타나 데이터 입력 오류로 인해 발생한 것으로 판명되면 데이터 세트의 평균이나 중앙값 과 같은 새 값을 할당하기로 결정할 수 있습니다.
- 이상치를 제거합니다. 값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다.
이상값으로 무엇을 하기로 결정하든 분석의 최종 결론을 제시할 때 이상값을 기록해 두십시오.