Comment exécuter Grubbs’ Tester en R



Le test de Grubbs est un test statistique qui peut être utilisé pour identifier la présence de valeurs aberrantes dans un ensemble de données.

Pour utiliser ce test, un ensemble de données doit avoir une distribution approximativement normale et contenir au moins 7 observations.

Ce didacticiel explique comment effectuer le test de Grubbs dans R pour détecter les valeurs aberrantes dans un ensemble de données.

Exemple : test de Grubbs dans R

Pour effectuer le test de Grubbs dans R, nous pouvons utiliser la fonction grubbs.test() du package Outliers , qui utilise la syntaxe suivante :

grubbs.test(x, type = 10, opposé = FAUX, recto-verso = FAUX)

où:

  • x : un vecteur numérique de valeurs de données
  • tapez : 10 = tester si la valeur maximale est aberrante, 11 = tester si les valeurs min et max sont des valeurs aberrantes, 20 = tester s’il y a deux valeurs aberrantes sur une queue
  • opposé : logique indiquant si vous souhaitez vérifier non pas la valeur avec la plus grande différence par rapport à la moyenne, mais l’opposé (la plus basse, si la plus suspecte est la plus élevée, etc.)
  • bilatéral : valeur logique indiquant si vous devez ou non traiter le test comme bilatéral

Ce test utilise les deux hypothèses suivantes :

H 0 (hypothèse nulle) : il n’y a pas de valeur aberrante dans les données.

H A (hypothèse alternative) : Il existe une valeur aberrante dans les données.

L’exemple suivant illustre comment effectuer le test de Grubbs pour déterminer si la valeur maximale d’un ensemble de données est une valeur aberrante :

#load Outliers package
library(Outliers)

#create data
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40)

#perform Grubbs' Test to see if '40' is an outlier
grubbs.test(data)

#	Grubbs test for one outlier
#
#data:  data
#G = 2.65990, U = 0.55935, p-value = 0.02398
#alternative hypothesis: highest value 40 is an outlier

La statistique de test du test est G = 2,65990 et la valeur p correspondante est p = 0,02398 . Puisque cette valeur est inférieure à 0,05, nous rejetterons l’hypothèse nulle et conclurons que la valeur maximale de 40 est une valeur aberrante.

Si nous voulions plutôt tester si la valeur la plus basse de « 5 » était une valeur aberrante, nous pourrions utiliser la commande opposé=TRUE :

#perform Grubbs' Test to see if '5' is an outlier
grubbs.test(data, opposite=TRUE)

#	Grubbs test for one outlier
#
#data:  data
#G = 1.4879, U = 0.8621, p-value = 1
#alternative hypothesis: lowest value 5 is an outlier

La statistique de test est G = 1,4879 et la valeur p correspondante est p = 1 . Puisque cette valeur n’est pas inférieure à 0,05, nous ne parvenons pas à rejeter l’hypothèse nulle. Nous ne disposons pas de preuves suffisantes pour affirmer que la valeur minimale de « 5 » est une valeur aberrante.

Enfin, supposons que nous ayons deux grandes valeurs à une extrémité de l’ensemble de données : 40 et 42. Pour tester si ces deux valeurs sont des valeurs aberrantes, nous pourrions effectuer le test de Grubbs et spécifier ce type=20 :

#create dataset with two large values at one end: 40 and 42
data <- c(5, 14, 15, 15, 14, 13, 19, 17, 16, 20, 22, 8, 21, 28, 11, 9, 29, 40, 42) 

#perform Grubbs' Test to see if both 40 and 42 are outliers
grubbs.test(data, type=20)

#	Grubbs test for two outliers
#
#data:  data
#U = 0.38111, p-value = 0.01195
#alternative hypothesis: highest values 40 , 42 are outliers

La valeur p du test est de 0,01195 . Puisque cette valeur est inférieure à 0,05, nous pouvons rejeter l’hypothèse nulle et conclure que nous disposons de suffisamment de preuves pour affirmer que les valeurs 40 et 42 sont toutes deux aberrantes.

Comment gérer les valeurs aberrantes

Si le test de Grubbs identifie une valeur aberrante dans votre ensemble de données, vous disposez de plusieurs options :

1. Vérifiez à nouveau que la valeur n’est pas une faute de frappe ou une erreur de saisie de données. Parfois, les valeurs qui apparaissent comme des valeurs aberrantes dans les ensembles de données sont simplement des fautes de frappe commises par un individu lors de la saisie des données. Revenez en arrière et vérifiez que la valeur a été saisie correctement avant de prendre d’autres décisions.

2. Attribuez une nouvelle valeur à la valeur aberrante . Si la valeur aberrante s’avère être le résultat d’une faute de frappe ou d’une erreur de saisie de données, vous pouvez décider de lui attribuer une nouvelle valeur, telle que la moyenne ou la médiane de l’ensemble de données.

3. Supprimez la valeur aberrante. Si la valeur est réellement aberrante, vous pouvez choisir de la supprimer si elle aura un impact significatif sur votre analyse globale.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *