Un guide d’utilisation des tests post-hoc avec ANOVA



Une ANOVA est un test statistique utilisé pour déterminer s’il existe ou non une différence statistiquement significative entre les moyennes de trois groupes indépendants ou plus.

Les hypothèses utilisées dans une ANOVA sont les suivantes :

L’hypothèse nulle (H 0 ) : µ 1 = µ 2 = µ 3 = … = µ k (les moyennes sont égales pour chaque groupe)

L’hypothèse alternative : (Ha) : au moins une des moyennes est différente des autres

Si la valeur p de l’ANOVA est inférieure au niveau de signification, nous pouvons rejeter l’hypothèse nulle et conclure que nous disposons de preuves suffisantes pour dire qu’au moins une des moyennes des groupes est différente des autres.

Cependant, cela ne nous dit pas quels groupes sont différents les uns des autres. Cela nous dit simplement que toutes les moyennes du groupe ne sont pas égales.

Afin de savoir exactement quels groupes sont différents les uns des autres, nous devons effectuer un test post hoc (également connu sous le nom de test de comparaison multiple), qui nous permettra d’explorer la différence entre les moyennes de plusieurs groupes tout en contrôlant également la famille. taux d’erreur judicieux.

Note technique : Il est important de noter que nous ne devons effectuer un test post hoc que lorsque la valeur p de l’ANOVA est statistiquement significative. Si la valeur p n’est pas statistiquement significative, cela indique que les moyennes de tous les groupes ne sont pas différentes les unes des autres. Il n’est donc pas nécessaire d’effectuer un test post hoc pour déterminer quels groupes sont différents les uns des autres.

Le taux d’erreur familial

Comme mentionné précédemment, les tests post hoc nous permettent de tester la différence entre les moyennes de plusieurs groupes tout en contrôlant également le taux d’erreur par famille .

Dans un test d’hypothèse , il existe toujours un taux d’erreur de type I, qui est défini par notre niveau de signification (alpha) et nous indique la probabilité de rejeter une hypothèse nulle qui est réellement vraie. En d’autres termes, il s’agit de la probabilité d’obtenir un « faux positif », c’est-à-dire lorsque l’on prétend qu’il existe une différence statistiquement significative entre les groupes, alors qu’en réalité ce n’est pas le cas.

Lorsque nous effectuons un test d’hypothèse, le taux d’erreur de type I est égal au niveau de signification, qui est généralement choisi comme étant 0,01, 0,05 ou 0,10. Cependant, lorsque nous effectuons plusieurs tests d’hypothèses à la fois, la probabilité d’obtenir un faux positif augmente.

Par exemple, imaginez que nous lançons un dé à 20 faces. La probabilité que le dé tombe sur un « 1 » n’est que de 5 %. Mais si l’on lance deux dés à la fois, la probabilité que l’un des dés tombe sur un « 1 » augmente à 9,75 %. Si nous lançons cinq dés à la fois, la probabilité augmente à 22,6 %.

Plus nous lançons de dés, plus la probabilité que l’un des dés tombe sur un « 1 » est élevée. De même, si nous effectuons plusieurs tests d’hypothèses à la fois en utilisant un niveau de signification de 0,05, la probabilité que nous obtenions un faux positif augmente au-delà de 0,05 seulement.

Comparaisons multiples en ANOVA

Lorsque nous effectuons une ANOVA, nous comparons souvent trois groupes ou plus. Ainsi, lorsque nous effectuons un test post hoc pour explorer la différence entre les moyennes des groupes, nous souhaitons explorer plusieurs comparaisons par paires .

Par exemple, supposons que nous ayons quatre groupes : A, B, C et D. Cela signifie qu’il y a un total de six comparaisons par paires que nous souhaitons examiner avec un test post hoc :

A – B (la différence entre la moyenne du groupe A et la moyenne du groupe B)
A-C
ANNONCE
AVANT JC
B-D
C-D

Si nous avons plus de quatre groupes, le nombre de comparaisons par paires que nous voudrons effectuer ne fera qu’augmenter encore plus. Le tableau suivant illustre le nombre de comparaisons par paires associées à chaque nombre de groupes ainsi que le taux d’erreur par famille :

Notez que le taux d’erreur par famille augmente rapidement à mesure que le nombre de groupes (et par conséquent le nombre de comparaisons par paires) augmente. En fait, une fois que nous atteignons six groupes, la probabilité que nous obtenions un faux positif est en réalité supérieure à 50 % !

Cela signifie que nous aurions de sérieux doutes sur nos résultats si nous devions faire autant de comparaisons par paires, sachant que notre taux d’erreur par famille est si élevé.

Heureusement, les tests post-hoc nous permettent d’effectuer de multiples comparaisons entre les groupes tout en contrôlant le taux d’erreur par famille.

Exemple : ANOVA unidirectionnelle avec tests post-hoc

L’exemple suivant illustre comment effectuer une ANOVA unidirectionnelle avec des tests post hoc.

Remarque : Cet exemple utilise le langage de programmation R, mais vous n’avez pas besoin de connaître R pour comprendre les résultats du test ou les principaux points à retenir.

Tout d’abord, nous allons créer un ensemble de données contenant quatre groupes (A, B, C, D) avec 20 observations par groupe :

#make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

#  group   amount
#1     A 2.796526
#2     A 3.116372
#3     A 3.718560
#4     A 4.724623
#5     A 2.605046
#6     A 4.695169

Ensuite, nous ajusterons une ANOVA unidirectionnelle à l’ensemble de données :

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

#            Df Sum Sq Mean Sq F value   Pr(>F)    
#group        3  25.37   8.458   17.66 8.53e-09 ***
#Residuals   76  36.39   0.479            

À partir du résultat du tableau ANOVA, nous voyons que la statistique F est de 17,66 et que la valeur p correspondante est extrêmement petite.

Cela signifie que nous disposons de suffisamment de preuves pour rejeter l’hypothèse nulle selon laquelle toutes les moyennes du groupe sont égales. Ensuite, nous pouvons utiliser un test post hoc pour déterminer quelles moyennes de groupe sont différentes les unes des autres.

Nous passerons en revue des exemples des tests post hoc suivants :

Test de Tukey – utile lorsque vous souhaitez effectuer toutes les comparaisons possibles par paires

Méthode de Holm – un test légèrement plus conservateur que le test de Tukey

Correction de Dunnett – utile lorsque vous souhaitez comparer la moyenne de chaque groupe à une moyenne de contrôle et que vous ne souhaitez pas comparer les moyennes de traitement entre elles.

Test de Tukey

Nous pouvons effectuer le test de Tukey pour plusieurs comparaisons en utilisant la fonction R intégrée TukeyHSD() comme suit :

#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#  Tukey multiple comparisons of means
#    95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
#         diff          lwr       upr     p adj
#B-A 0.2822630 -0.292540425 0.8570664 0.5721402
#C-A 0.8561388  0.281335427 1.4309423 0.0011117
#D-A 1.4676027  0.892799258 2.0424061 0.0000000
#C-B 0.5738759 -0.000927561 1.1486793 0.0505270
#D-B 1.1853397  0.610536271 1.7601431 0.0000041
#D-C 0.6114638  0.036660419 1.1862672 0.0326371

Notez que nous avons spécifié que notre niveau de confiance est de 95 %, ce qui signifie que nous voulons que notre taux d’erreur par famille soit de 0,05. R nous donne deux métriques pour comparer chaque différence par paire :

  • Intervalle de confiance pour la différence moyenne (donnée par les valeurs de lwr et upr )
  • Valeur p ajustée pour la différence moyenne

L’intervalle de confiance et la valeur p conduiront à la même conclusion.

Par exemple, l’intervalle de confiance à 95 % pour la différence moyenne entre le groupe C et le groupe A est (0,2813, 1,4309), et comme cet intervalle ne contient pas zéro, nous savons que la différence entre les moyennes de ces deux groupes est statistiquement significative. En particulier, on sait que la différence est positive, puisque la borne inférieure de l’intervalle de confiance est supérieure à zéro.

De même, la valeur p pour la différence moyenne entre le groupe C et le groupe A est de 0,0011, ce qui est inférieur à notre niveau de signification de 0,05, ce qui indique également que la différence entre les moyennes de ces deux groupes est statistiquement significative.

Nous pouvons également visualiser les intervalles de confiance à 95 % résultant du test de Tukey en utilisant la fonction plot() dans R :

plot(TukeyHSD(anova_model, conf.level=.95))

Si l’intervalle contient zéro, alors nous savons que la différence entre les moyennes des groupes n’est pas statistiquement significative. Dans l’exemple ci-dessus, les différences pour BA et CB ne sont pas statistiquement significatives, mais les différences pour les quatre autres comparaisons par paires sont statistiquement significatives.

La méthode de Holm

Un autre test post hoc que nous pouvons effectuer est la méthode de Holm. Ce test est généralement considéré comme plus conservateur que le test de Tukey.

Nous pouvons utiliser le code suivant dans R pour exécuter la méthode de Holm pour plusieurs comparaisons par paires :

#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
#	Pairwise comparisons using t tests with pooled SD 
#
#data:  data_long$amount and data_long$group 
#
#  A       B       C      
#B 0.20099 -       -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm 

Ce test fournit une grille de valeurs p pour chaque comparaison par paire. Par exemple, la valeur p pour la différence entre la moyenne du groupe A et du groupe B est de 0,20099.

Si vous comparez les valeurs p de ce test avec les valeurs p du test de Tukey, vous remarquerez que chacune des comparaisons par paires mène à la même conclusion, à l’exception de la différence entre les groupes C et D. La valeur p pour cette différence était de 0,0505 dans le test de Tukey par rapport à 0,02108 dans la méthode de Holm.

Ainsi, en utilisant le test de Tukey, nous avons conclu que la différence entre le groupe C et le groupe D n’était pas statistiquement significative au niveau de signification de 0,05, mais en utilisant la méthode de Holm, nous avons conclu que la différence entre le groupe C et le groupe D était statistiquement significative.

En général, les valeurs p produites par la méthode de Holm ont tendance à être inférieures à celles produites par le test de Tukey.

Correction de Dunnett

Une autre méthode que nous pouvons utiliser pour des comparaisons multiples est la correction de Dunett. Nous utiliserions cette approche lorsque nous souhaitons comparer la moyenne de chaque groupe à une moyenne de contrôle et que nous ne souhaitons pas comparer les moyennes de traitement entre elles.

Par exemple, en utilisant le code ci-dessous, nous comparons les moyennes de groupe de B, C et D à celles du groupe A. Ainsi, nous utilisons le groupe A comme groupe témoin et nous ne sommes pas intéressés par les différences entre les groupes B, C. , et D.

#load multcomp library necessary for using Dunnett's Correction
library(multcomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#perform comparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Hypotheses:
#           Estimate Std. Error t value Pr(>|t|)    
#B - A == 0   0.2823     0.2188   1.290 0.432445    
#C - A == 0   0.8561     0.2188   3.912 0.000545 ***
#D - A == 0   1.4676     0.2188   6.707  < 1e-04 ***

À partir des valeurs p dans la sortie, nous pouvons voir ce qui suit :

  • La différence entre la moyenne du groupe B et celle du groupe A n’est pas statistiquement significative au niveau de signification de 0,05. La valeur p pour ce test est de 0,4324 .
  • La différence entre la moyenne du groupe C et du groupe A est statistiquement significative à un niveau de signification de 0,05. La valeur p pour ce test est de 0,0005 .
  • La différence entre la moyenne du groupe D et du groupe A est statistiquement significative à un niveau de signification de 0,05. La valeur p pour ce test est de 0,00004 .

Comme nous l’avons indiqué précédemment, cette approche traite le groupe A comme le groupe « témoin » et compare simplement la moyenne de tous les autres groupes à celle du groupe A. Notez qu’aucun test n’est effectué pour les différences entre les groupes B, C et D car nous ne le faisons pas. Je ne suis pas intéressé par les différences entre ces groupes.

Une note sur les tests post-hoc et la puissance statistique

Les tests post hoc font un excellent travail pour contrôler le taux d’erreur par famille, mais le compromis est qu’ils réduisent la puissance statistique des comparaisons. En effet, la seule façon de réduire le taux d’erreur par famille est d’utiliser un niveau de signification plus faible pour toutes les comparaisons individuelles.

Par exemple, lorsque nous utilisons le test de Tukey pour six comparaisons par paires et que nous souhaitons maintenir un taux d’erreur par famille de 0,05, nous devons utiliser un niveau de signification d’environ 0,011 pour chaque niveau de signification individuel. Plus nous effectuons de comparaisons par paires, plus le niveau de signification que nous devons utiliser pour chaque niveau de signification individuel est faible.

Le problème est que des niveaux de signification plus faibles correspondent à une puissance statistique plus faible. Cela signifie que si une différence entre les moyennes des groupes existe effectivement dans la population, une étude de moindre puissance est moins susceptible de la détecter.

Une façon de réduire les effets de ce compromis consiste simplement à réduire le nombre de comparaisons par paires que nous effectuons. Par exemple, dans les exemples précédents, nous avons effectué six comparaisons par paires pour les quatre groupes différents. Cependant, en fonction des besoins de votre étude, vous ne souhaiterez peut-être faire que quelques comparaisons.

En effectuant moins de comparaisons, vous n’avez pas besoin de réduire autant la puissance statistique.

Il est important de noter que vous devez déterminer avant d’effectuer l’ANOVA exactement quels groupes vous souhaitez effectuer des comparaisons et quel test post hoc vous utiliserez pour effectuer ces comparaisons. Sinon, si vous voyez simplement quel test post hoc produit des résultats statistiquement significatifs, cela réduit l’intégrité de l’étude.

Conclusion

Dans cet article, nous avons appris les choses suivantes :

  • Une ANOVA est utilisée pour déterminer s’il existe ou non une différence statistiquement significative entre les moyennes de trois groupes indépendants ou plus.
  • Si une ANOVA produit une valeur p inférieure à notre niveau de signification, nous pouvons utiliser des tests post hoc pour découvrir quelles moyennes de groupe diffèrent les unes des autres.
  • Les tests post-hoc nous permettent de contrôler le taux d’erreur par famille tout en effectuant plusieurs comparaisons par paires.
  • Le compromis du contrôle du taux d’erreur par famille est une puissance statistique moindre. Nous pouvons réduire les effets d’une puissance statistique moindre en effectuant moins de comparaisons par paires.
  • Vous devez déterminer au préalable sur quels groupes vous souhaitez effectuer des comparaisons par paires et quel test post hoc vous utiliserez pour ce faire.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *