Dixon의 q 테스트: 정의 + 예


간단히 Q 테스트라고도 불리는 Dixon의 Q 테스트 는 데이터 세트에서 이상값을 탐지하는 데 사용되는 통계 테스트입니다.

Q 테스트 통계는 다음과 같습니다.

Q = | xaxb | /아르 자형

여기서 x a 는 의심되는 특이치이고 x b 는 x a 에 가장 가까운 데이터 포인트이며 R 은 데이터 세트의 범위입니다. 대부분의 경우 x a 는 데이터 세트의 최대값이지만 최소값일 수도 있습니다.

Q 테스트는 일반적으로 작은 데이터 세트에서 수행되며 데이터가 정규 분포를 따르는 것으로 가정한다는 점에 유의하는 것이 중요합니다. Q 테스트는 주어진 데이터 세트에 대해 한 번만 수행되어야 한다는 점에 유의하는 것도 중요합니다.

Dixon Q 테스트를 손으로 수행하는 방법

다음과 같은 데이터 세트가 있다고 가정합니다.

1장, 3장, 5장, 7장, 8장, 9장, 13장, 25장

표준 5단계 가설 테스트 절차에 따라 Dixon의 Q 테스트를 수동으로 수행하여 이 데이터 세트의 최대값이 이상치인지 여부를 확인할 수 있습니다.

1단계. 가설을 진술합니다.

귀무가설(H0): 최대값은 특이치가 아닙니다.

대립 가설: (Ha): 최대값은 특이치 입니다 .

2단계. 사용할 유의 수준을 결정합니다.

일반적인 선택은 0.1, 0.05, 0.01입니다. 이 예에서는 유의 수준 0.05를 사용합니다.

3단계. 검정 통계량을 찾습니다.

Q = | xaxb | /아르 자형

이 경우 최대값은 x a = 25이고, 다음으로 가장 가까운 값은 x b = 13이며, 범위는 R = 25 – 1 = 24입니다.

따라서 Q = |25 – 13| / 24 = 0.5 .

그런 다음 이 검정 통계량을 다양한 표본 크기(n) 및 신뢰 수준에 대해 아래에 표시된 임계 Q 검정 값과 비교할 수 있습니다.

n 90% 95% 99%
3 0.941 0.970 0.994
4 0.765 0.829 0.926
5 0.642 0.710 0.821
6 0.560 0.625 0.740
7 0.507 0.568 0.680
8 0.468 0.526 0.634
9 0.437 0.493 0.598
10 0.412 0.466 0.568
11 0.392 0.444 0.542
12 0.376 0.426 0.522
13 0.361 0.410 0.503
14 0.349 0.396 0.488
15 0.338 0.384 0.475
16 0.329 0.374 0.463
17 0.320 0.365 0.452
18 0.313 0.356 0.442
19 0.306 0.349 0.433
20 0.300 0.342 0.425
21 0.295 0.337 0.418
22 0.290 0.331 0.411
23 0.285 0.326 0.404
24 0.281 0.321 0.399
25 0.277 0.317 0.393
26 0.273 0.312 0.388
27 0.269 0.308 0.384
28 0.266 0.305 0.380
29 0.263 0.301 0.376
30 0.260 0.290 0.372

표본이 8개이고 신뢰 수준 95%에 대한 임계값은 0.526 입니다.

4단계. 귀무가설을 기각하거나 기각하지 않습니다.

검정 통계량 Q(0.5)가 임계값(0.526)보다 작으므로 귀무가설을 기각하지 못합니다.

5단계. 결과를 해석합니다.

귀무가설을 기각하는 데 실패했기 때문에 최대값 25가 이 데이터세트의 이상값이 아니라는 결론을 내립니다.

R에서 Dixon의 Q 테스트를 수행하는 방법

R의 동일한 데이터세트에 대해 Dixon의 Q 테스트를 수행하려면 다음 구문을 사용하는 outliers 라이브러리의 dixon.test() 함수를 사용할 수 있습니다.

dixon.test(data, , 유형 = 10, 반대 = FALSE)

  • 데이터: 데이터 값의 숫자형 벡터
  • 유형: Q 통계 테스트를 수행하는 데 사용할 수식 유형입니다. 이전에 설명한 수식을 사용하려면 10으로 설정합니다.
  • 반대: FALSE인 경우 테스트는 최대값이 이상치인지 여부를 결정합니다. TRUE인 경우 테스트에서는 최소값이 이상값인지 여부를 확인합니다. 이는 기본적으로 FALSE입니다.

참고 : 여기에서 dixon.test()에 대한 전체 문서를 찾으세요.

다음 코드는 Dixon의 Q 테스트를 수행하여 데이터 세트의 최대값이 이상값인지 확인하는 방법을 보여줍니다.

 #load the outliers library
library(outliers)

#create data
data <- c(1, 3, 5, 7, 8, 9, 13, 25)

#conduct Dixon's Q Test
dixon.test(data, type = 10)

# Dixon test for outliers
#
#data:data
#Q = 0.5, p-value = 0.06913
#alternative hypothesis: highest value 25 is an outlier

결과에서 검정 통계량은 Q = 0.5 이고 해당 p-값은 0.06913 임을 알 수 있습니다. 따라서 우리는 0.05 유의 수준에서 귀무 가설을 기각하지 못하고 25가 특이치가 아니라는 결론을 내립니다. 이는 우리가 수동으로 얻은 결과와 일치합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다