Test Q de Dixon : définition + exemple
Le Q Test de Dixon , souvent appelé simplement Q Test , est un test statistique utilisé pour détecter les valeurs aberrantes dans un ensemble de données.
La statistique du test Q est la suivante :
Q = |x une – xb | /R
où x a est la valeur aberrante suspectée, x b est le point de données le plus proche de x a et R est la plage de l’ensemble de données. Dans la plupart des cas, x a est la valeur maximale de l’ensemble de données, mais il peut également s’agir de la valeur minimale.
Il est important de noter que le test Q est généralement effectué sur de petits ensembles de données et qu’il suppose que les données sont normalement distribuées. Il est également important de noter que le test Q ne doit être effectué qu’une seule fois pour un ensemble de données donné.
Comment effectuer le test Q de Dixon à la main
Supposons que nous ayons l’ensemble de données suivant :
1, 3, 5, 7, 8, 9, 13, 25
Nous pouvons suivre la procédure standard en cinq étapes pour tester les hypothèses afin d’effectuer manuellement le test Q de Dixon afin de déterminer si la valeur maximale de cet ensemble de données est une valeur aberrante :
Étape 1. Énoncez les hypothèses.
L’hypothèse nulle (H0) : Le maximum n’est pas une valeur aberrante.
L’hypothèse alternative : (Ha) : Le max est une valeur aberrante.
Étape 2. Déterminez un niveau de signification à utiliser.
Les choix courants sont 0,1, 0,05 et 0,01. Nous utiliserons un niveau de signification de 0,05 pour cet exemple.
Étape 3. Recherchez la statistique du test.
Q = |x une – xb | /R
Dans ce cas, notre valeur maximale est x a = 25, notre prochaine valeur la plus proche est x b = 13 et notre plage est R = 25 – 1 = 24.
Ainsi, Q = |25 – 13| / 24 = 0,5 .
Ensuite, nous pouvons comparer cette statistique de test aux valeurs critiques du test Q, qui sont indiquées ci-dessous pour différentes tailles d’échantillon (n) et niveaux de confiance :
n 90 % 95 % 99 %
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
11 0,392 0,444 0,542
12 0,376 0,426 0,522
13 0,361 0,410 0,503
14 0,349 0,396 0,488
15 0,338 0,384 0,475
16 0,329 0,374 0,463
17 0,320 0,365 0,452
18 0,313 0,356 0,442
19 0,306 0,349 0,433
20 0,300 0,342 0,425
21 0,295 0,337 0,418
22 0,290 0,331 0,411
23 0,285 0,326 0,404
24 0,281 0,321 0,399
25 0,277 0,317 0,393
26 0,273 0,312 0,388
27 0,269 0,308 0,384
28 0,266 0,305 0,380
29 0,263 0,301 0,376
30 0,260 0,290 0,372
La valeur critique pour un échantillon de 8 et un niveau de confiance de 95 % est de 0,526 .
Étape 4. Rejetez ou ne rejetez pas l’hypothèse nulle.
Puisque notre statistique de test Q (0,5) est inférieure à la valeur critique (0,526), nous ne parvenons pas à rejeter l’hypothèse nulle.
Étape 5. Interprétez les résultats.
Puisque nous n’avons pas réussi à rejeter l’hypothèse nulle, nous concluons que la valeur maximale de 25 n’est pas une valeur aberrante dans cet ensemble de données.
Comment effectuer le test Q de Dixon dans R
Pour effectuer le Q Test de Dixon sur le même ensemble de données dans R, nous pouvons utiliser la fonction dixon.test() de la bibliothèque outliers , qui utilise la syntaxe suivante :
dixon.test(data, , type = 10, ci-contre = FALSE)
- data : un vecteur numérique de valeurs de données
- type : le type de formule à utiliser pour effectuer le test statistique Q. Réglez sur 10 pour utiliser la formule décrite précédemment.
- ci-contre : Si FAUX, le test détermine si la valeur maximale est aberrante. Si VRAI, le test détermine si la valeur minimale est une valeur aberrante. C’est FAUX par défaut.
Remarque : Retrouvez la documentation complète de dixon.test() ici .
Le code suivant illustre comment effectuer le test Q de Dixon pour déterminer si la valeur maximale de l’ensemble de données est une valeur aberrante.
#load the outliers library library(outliers) #create data data <- c(1, 3, 5, 7, 8, 9, 13, 25) #conduct Dixon's Q Test dixon.test(data, type = 10) # Dixon test for outliers # #data: data #Q = 0.5, p-value = 0.06913 #alternative hypothesis: highest value 25 is an outlier
À partir du résultat, nous pouvons voir que la statistique de test est Q = 0,5 et la valeur p correspondante est 0,06913 . Ainsi, nous ne parvenons pas à rejeter l’hypothèse nulle au niveau de signification de 0,05 et concluons que 25 n’est pas une valeur aberrante. Cela correspond au résultat que nous avons obtenu manuellement.