Test q dixona: definicja + przykład
Test Q Dixona , często nazywany po prostu testem Q , to test statystyczny używany do wykrywania wartości odstających w zbiorze danych.
Statystyka testu Q wynosi:
Q = |x a – xb | /R
gdzie x a jest prawdopodobną wartością odstającą, x b jest punktem danych najbliższym x a , a R jest zakresem zbioru danych. W większości przypadków x a jest maksymalną wartością zbioru danych, ale może być również wartością minimalną.
Należy zauważyć, że test Q jest zwykle wykonywany na małych zbiorach danych i zakłada, że dane mają rozkład normalny. Należy również pamiętać, że test Q należy wykonać tylko raz dla danego zbioru danych.
Jak wykonać test Dixon Q ręcznie
Załóżmy, że mamy następujący zbiór danych:
1, 3, 5, 7, 8, 9, 13, 25
Możemy postępować zgodnie ze standardową pięcioetapową procedurą testowania hipotez, aby ręcznie wykonać test Q Dixona w celu ustalenia, czy maksymalna wartość w tym zestawie danych jest wartością odstającą:
Krok 1. Postaw hipotezy.
Hipoteza zerowa (H0): maksimum nie jest wartością odstającą.
Hipoteza alternatywna: (Ha): Maksymalna wartość jest wartością odstającą.
Krok 2. Określ poziom istotności, który należy zastosować.
Typowe wybory to 0,1, 0,05 i 0,01. W tym przykładzie zastosujemy poziom istotności 0,05.
Krok 3. Znajdź statystykę testową.
Q = |x a – xb | /R
W tym przypadku nasza maksymalna wartość to x a = 25, następna najbliższa wartość to x b = 13, a nasz zakres to R = 25 – 1 = 24.
Zatem Q = |25 – 13| / 24 = 0,5 .
Następnie możemy porównać tę statystykę testową z krytycznymi wartościami testu Q, które pokazano poniżej dla różnych wielkości próbek (n) i poziomów ufności:
n 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372
Wartość krytyczna dla próby 8 i poziomu ufności 95% wynosi 0,526 .
Krok 4. Odrzuć lub nie odrzucaj hipotezy zerowej.
Ponieważ nasza statystyka testowa Q (0,5) jest mniejsza niż wartość krytyczna (0,526), nie możemy odrzucić hipotezy zerowej.
Krok 5. Interpretacja wyników.
Ponieważ nie odrzuciliśmy hipotezy zerowej, dochodzimy do wniosku, że maksymalna wartość 25 nie jest wartością odstającą w tym zbiorze danych.
Jak wykonać test Q Dixona w R
Aby wykonać test Q Dixona na tym samym zbiorze danych w języku R, możemy użyć funkcji dixon.test() z biblioteki wartości odstających , która wykorzystuje następującą składnię:
dixon.test(dane, , typ = 10, przeciwne = FAŁSZ)
- dane: wektor liczbowy wartości danych
- typ: typ formuły używanej do przeprowadzania testu statystycznego Q. Ustaw na 10, aby użyć formuły opisanej wcześniej.
- odwrotnie: Jeśli FAŁSZ, test określa, czy wartość maksymalna jest wartością odstającą. Jeśli PRAWDA, test określa, czy wartość minimalna jest wartością odstającą. Domyślnie jest to FAŁSZ.
Uwaga : pełną dokumentację dixon.test() znajdziesz tutaj .
Poniższy kod ilustruje sposób przeprowadzenia testu Q Dixona w celu ustalenia, czy maksymalna wartość w zbiorze danych jest wartością odstającą.
#load the outliers library library(outliers) #create data data <- c(1, 3, 5, 7, 8, 9, 13, 25) #conduct Dixon's Q Test dixon.test(data, type = 10) # Dixon test for outliers # #data:data #Q = 0.5, p-value = 0.06913 #alternative hypothesis: highest value 25 is an outlier
Z wyniku widzimy, że statystyka testowa wynosi Q = 0,5 , a odpowiadająca jej wartość p wynosi 0,06913 . Zatem nie udało nam się odrzucić hipotezy zerowej na poziomie istotności 0,05 i stwierdzić, że 25 nie jest wartością odstającą. Odpowiada to wynikowi, który uzyskaliśmy ręcznie.