Dixon's q-test: definitie + voorbeeld
De Q-test van Dixon , vaak eenvoudigweg Q-test genoemd, is een statistische test die wordt gebruikt om uitschieters in een dataset te detecteren.
De Q-teststatistiek is:
Q = |x a – xb | /R
waarbij x a de vermoedelijke uitschieter is, x b het gegevenspunt is dat het dichtst bij x a ligt, en R het bereik van de gegevensset is. In de meeste gevallen is x a de maximale waarde van de dataset, maar het kan ook de minimale waarde zijn.
Het is belangrijk op te merken dat de Q-test meestal wordt uitgevoerd op kleine gegevenssets en ervan uitgaat dat de gegevens normaal verdeeld zijn. Het is ook belangrijk op te merken dat de Q-test slechts één keer mag worden uitgevoerd voor een bepaalde dataset.
Hoe u de Dixon Q-test met de hand uitvoert
Stel dat we de volgende dataset hebben:
1, 3, 5, 7, 8, 9, 13, 25
We kunnen de standaard procedure voor het testen van hypothesen in vijf stappen volgen om handmatig de Q-test van Dixon uit te voeren om te bepalen of de maximale waarde in deze dataset een uitbijter is:
Stap 1. Formuleer de hypothesen.
De nulhypothese (H0): Het maximum is geen uitbijter.
De alternatieve hypothese: (Ha): De max is een uitbijter.
Stap 2. Bepaal een significantieniveau dat u wilt gebruiken.
Veel voorkomende keuzes zijn 0,1, 0,05 en 0,01. Voor dit voorbeeld gebruiken we een significantieniveau van 0,05.
Stap 3. Zoek de teststatistiek.
Q = |x a – xb | /R
In dit geval is onze maximale waarde x a = 25, onze volgende dichtstbijzijnde waarde is x b = 13 en ons bereik is R = 25 – 1 = 24.
Dus Q = |25 – 13| / 24 = 0,5 .
Vervolgens kunnen we deze teststatistiek vergelijken met de kritische Q-testwaarden, die hieronder worden weergegeven voor verschillende steekproefgroottes (n) en betrouwbaarheidsniveaus:
n 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372
De kritische waarde voor een steekproef van 8 en een betrouwbaarheidsniveau van 95% is 0,526 .
Stap 4. Verwerp de nulhypothese of verwerp deze niet.
Omdat onze teststatistiek Q (0,5) kleiner is dan de kritische waarde (0,526), slagen we er niet in de nulhypothese te verwerpen.
Stap 5. Interpreteer de resultaten.
Omdat we er niet in zijn geslaagd de nulhypothese te verwerpen, concluderen we dat de maximale waarde van 25 geen uitbijter is in deze dataset.
Hoe de Dixon’s Q-test uit te voeren in R
Om de Q-test van Dixon uit te voeren op dezelfde dataset in R, kunnen we de functie dixon.test() uit de bibliotheek met uitbijters gebruiken, die de volgende syntaxis gebruikt:
dixon.test(gegevens, , type = 10, tegenovergesteld = ONWAAR)
- data: een numerieke vector van datawaarden
- type: Het type formule dat moet worden gebruikt om de Q-statistische test uit te voeren. Stel in op 10 om de eerder beschreven formule te gebruiken.
- tegenovergestelde: Indien FALSE, bepaalt de test of de maximale waarde een uitbijter is. Indien WAAR, bepaalt de test of de minimumwaarde een uitbijter is. Dit is standaard FALSE.
Opmerking : Vind hier de volledige documentatie voor dixon.test().
De volgende code laat zien hoe u de Dixon’s Q-test kunt uitvoeren om te bepalen of de maximale waarde in de gegevensset een uitbijter is.
#load the outliers library library(outliers) #create data data <- c(1, 3, 5, 7, 8, 9, 13, 25) #conduct Dixon's Q Test dixon.test(data, type = 10) # Dixon test for outliers # #data:data #Q = 0.5, p-value = 0.06913 #alternative hypothesis: highest value 25 is an outlier
Uit het resultaat kunnen we zien dat de teststatistiek Q = 0,5 is en dat de overeenkomstige p-waarde 0,06913 is. We slagen er dus niet in de nulhypothese op het significantieniveau van 0,05 te verwerpen en concluderen dat 25 geen uitbijter is. Dit komt overeen met het resultaat dat we handmatig hebben verkregen.