Een gids voor het gebruik van post-hoctesten met anova
Een ANOVA is een statistische test die wordt gebruikt om te bepalen of er al dan niet een statistisch significant verschil bestaat tussen de gemiddelden van drie of meer onafhankelijke groepen.
De aannames die bij een ANOVA worden gebruikt, zijn als volgt:
De nulhypothese (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (de gemiddelden zijn voor elke groep gelijk)
De alternatieve hypothese: (Ha): minstens één van de middelen verschilt van de andere
Als de p-waarde van de ANOVA onder het significantieniveau ligt, kunnen we de nulhypothese verwerpen en concluderen dat we voldoende bewijs hebben om te zeggen dat ten minste één van de groepsgemiddelden verschilt van de andere.
Dit vertelt ons echter niet welke groepen van elkaar verschillen. Dit vertelt ons eenvoudigweg dat niet alle groepsgemiddelden gelijk zijn.
Om precies te weten welke groepen van elkaar verschillen, moeten we een post-hoctest uitvoeren (ook bekend als een meervoudige vergelijkingstest), waarmee we het verschil tussen de gemiddelden van meerdere groepen kunnen onderzoeken en tegelijkertijd de familie kunnen controleren. . redelijk foutenpercentage.
Technische noot: Het is belangrijk op te merken dat we alleen een post-hoctest mogen uitvoeren als de ANOVA p-waarde statistisch significant is. Als de p-waarde niet statistisch significant is, geeft dit aan dat de gemiddelden van alle groepen niet van elkaar verschillen. Daarom is het niet nodig om een post-hoctest uit te voeren om te bepalen welke groepen van elkaar verschillen.
Het foutenpercentage van het gezin
Zoals eerder vermeld, stellen post-hoctests ons in staat het verschil tussen de gemiddelden van meerdere groepen te testen, terwijl we ook controleren voor het foutenpercentage per gezin .
Bij het testen van hypothesen is er altijd een Type I-foutpercentage, dat wordt gedefinieerd door ons significantieniveau (alfa) en ons vertelt hoe waarschijnlijk het is dat we een nulhypothese verwerpen die feitelijk waar is. Met andere woorden, het is de kans op een “vals-positief resultaat”, dat wil zeggen wanneer we beweren dat er een statistisch significant verschil bestaat tussen de groepen, terwijl dit in werkelijkheid niet het geval is.
Wanneer we hypothesetoetsen uitvoeren, is het type I-foutenpercentage gelijk aan het significantieniveau, dat gewoonlijk wordt gekozen op 0,01, 0,05 of 0,10. Wanneer we echter meerdere hypothesetests tegelijk uitvoeren, wordt de kans op een vals positief resultaat groter.
Stel je bijvoorbeeld voor dat we een 20-zijdige dobbelsteen gooien. De kans dat de dobbelsteen op een “1” valt is slechts 5%. Maar als je twee dobbelstenen tegelijk gooit, neemt de kans dat een van de dobbelstenen op een “1” terechtkomt toe tot 9,75%. Als we vijf dobbelstenen tegelijk gooien, neemt de kans toe tot 22,6%.
Hoe meer dobbelstenen we gooien, hoe groter de kans dat een van de dobbelstenen op een “1” terechtkomt. Op dezelfde manier, als we meerdere hypothesetoetsen tegelijk uitvoeren met een significantieniveau van 0,05, wordt de kans dat we een vals-positief resultaat krijgen groter dan slechts 0,05.
Meerdere vergelijkingen in ANOVA
Wanneer we een ANOVA uitvoeren, vergelijken we vaak drie of meer groepen. Dus als we een post-hoctest uitvoeren om het verschil tussen groepsgemiddelden te onderzoeken, willen we meerdere paarsgewijze vergelijkingen onderzoeken.
Laten we bijvoorbeeld zeggen dat we vier groepen hebben: A, B, C en D. Dit betekent dat er in totaal zes paarsgewijze vergelijkingen zijn die we willen onderzoeken met een post-hoctest:
A – B (het verschil tussen het gemiddelde van groep A en het gemiddelde van groep B)
AC
AANKONDIGING
BC
strips
CD
Als we meer dan vier groepen hebben, zal het aantal paarsgewijze vergelijkingen dat we willen uitvoeren alleen maar toenemen. De volgende tabel illustreert het aantal paarsgewijze vergelijkingen dat bij elk aantal groepen hoort, evenals het foutenpercentage per gezin:
Merk op dat het foutenpercentage per gezin snel toeneemt naarmate het aantal groepen (en dus het aantal paarsgewijze vergelijkingen) toeneemt. Zodra we zes groepen bereiken, is de kans dat we een vals-positief resultaat krijgen zelfs meer dan 50%!
Dit betekent dat we ernstige twijfels zouden hebben over onze resultaten als we zoveel paarsgewijze vergelijkingen zouden moeten doen, wetende dat ons foutenpercentage voor gezinnen zo hoog is.
Gelukkig kunnen we dankzij post-hoctesten meerdere vergelijkingen tussen groepen maken, terwijl we het foutenpercentage per gezin kunnen controleren.
Voorbeeld: One-way ANOVA met post-hoc-tests
Het volgende voorbeeld illustreert hoe u een eenrichtings-ANOVA uitvoert met post-hoc-tests.
Opmerking: in dit voorbeeld wordt de programmeertaal R gebruikt, maar u hoeft R niet te kennen om de testresultaten of de belangrijkste punten te begrijpen.
Eerst zullen we een dataset maken met vier groepen (A, B, C, D) met 20 observaties per groep:
#make this example reproducible set.seed(1) #load tidyr library to convert data from wide to long format library(tidyr) #create wide dataset data <- data.frame(A = runif(20, 2, 5), B = runif(20, 3, 5), C = runif(20, 3, 6), D = runif(20, 4, 6)) #convert to long dataset for ANOVA data_long <- gather(data, key = "group", value = "amount", A, B, C, D) #view first six lines of dataset head(data_long) # group amount #1 To 2.796526 #2 A 3.116372 #3 A 3.718560 #4 A 4.724623 #5 A 2.605046 #6 A 4.695169
Vervolgens zullen we een eenrichtings-ANOVA uitvoeren op de dataset:
#fit anova model anova_model <- aov(amount ~ group, data = data_long) #view summary of anova model summary(anova_model) # Df Sum Sq Mean Sq F value Pr(>F) #group 3 25.37 8.458 17.66 8.53e-09 *** #Residuals 76 36.39 0.479
Uit het resultaat van de ANOVA-tabel zien we dat de F-statistiek 17,66 is en dat de overeenkomstige p-waarde extreem klein is.
Dit betekent dat we voldoende bewijs hebben om de nulhypothese te verwerpen dat alle groepsgemiddelden gelijk zijn. Vervolgens kunnen we met een post-hoctest bepalen welke groepsgemiddelden van elkaar verschillen.
We zullen voorbeelden van de volgende post-hoctests bekijken:
Tukey-test – handig als u alle mogelijke paarsgewijze vergelijkingen wilt maken
Holm’s methode – een iets conservatievere test dan de Tukey-test
Dunnett’s correctie – handig als u het gemiddelde van elke groep wilt vergelijken met een controlegemiddelde en de behandelmiddelen niet met elkaar wilt vergelijken.
Tukey-test
We kunnen de Tukey-test voor meerdere vergelijkingen uitvoeren met behulp van de ingebouwde R-functie TukeyHSD() als volgt:
#perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95)
#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371
Houd er rekening mee dat we hebben gespecificeerd dat ons betrouwbaarheidsniveau 95% is, wat betekent dat we willen dat ons foutenpercentage per gezin 0,05 is. R geeft ons twee statistieken om elk paarsgewijze verschil te vergelijken:
- Betrouwbaarheidsinterval voor het gemiddelde verschil (gegeven door de waarden van lwr en upr )
- p-waarde aangepast voor gemiddeld verschil
Het betrouwbaarheidsinterval en de p-waarde zullen tot dezelfde conclusie leiden.
Het 95% betrouwbaarheidsinterval voor het gemiddelde verschil tussen groep C en groep A is bijvoorbeeld (0,2813, 1,4309), en omdat dit interval geen nul bevat, weten we dat het verschil tussen de gemiddelden van deze twee groepen statistisch significant is. We weten vooral dat het verschil positief is, omdat de ondergrens van het betrouwbaarheidsinterval groter is dan nul.
Op dezelfde manier is de p-waarde voor het gemiddelde verschil tussen Groep C en Groep A 0,0011, wat lager is dan ons significantieniveau van 0,05, wat ook aangeeft dat het verschil tussen de gemiddelden van deze twee groepen statistisch significant is.
We kunnen ook de 95% betrouwbaarheidsintervallen visualiseren die het resultaat zijn van de Tukey-test met behulp van de plot()- functie in R:
plot(TukeyHSD(anova_model, conf.level=.95))
Als het interval nul bevat, weten we dat het verschil tussen de groepsgemiddelden niet statistisch significant is. In het bovenstaande voorbeeld zijn de verschillen voor BA en CB niet statistisch significant, maar de verschillen voor de andere vier paarsgewijze vergelijkingen zijn statistisch significant.
Holms methode
Een andere post-hoctest die we kunnen uitvoeren is de methode van Holm. Deze test wordt over het algemeen als conservatiever beschouwd dan de Tukey-test.
We kunnen de volgende code in R gebruiken om de methode van Holm uit te voeren voor meerdere paarsgewijze vergelijkingen:
#perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm")
# Pairwise comparisons using t tests with pooled SD
#
#data: data_long$amount and data_long$group
#
#ABC
#B 0.20099 - -
#C 0.00079 0.02108 -
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm
Deze test biedt een raster van p-waarden voor elke paarsgewijze vergelijking. De p-waarde voor het verschil tussen het gemiddelde van groep A en groep B is bijvoorbeeld 0,20099.
Als je de p-waarden uit deze test vergelijkt met de p-waarden uit de test van Tukey, zul je merken dat elk van de paarsgewijze vergelijkingen tot dezelfde conclusie leidt, behalve het verschil tussen groepen C en D. De p De waarde voor dit verschil was 0,0505 in de test van Tukey, vergeleken met 0,02108 in de methode van Holm.
Met behulp van de Tukey-test concludeerden we dus dat het verschil tussen groep C en groep D niet statistisch significant was op het significantieniveau van 0,05, maar met behulp van de methode van Holm concludeerden we dat het verschil tussen groep C en groep D statistisch significant was .
Over het algemeen zijn de p-waarden geproduceerd door de methode van Holm lager dan die geproduceerd door de Tukey-test.
Dunnetts correctie
Een andere methode die we voor meerdere vergelijkingen kunnen gebruiken, is de Dunett-correctie. We zouden deze aanpak gebruiken als we de middelen van elke groep willen vergelijken met een controlegemiddelde en we de behandelmiddelen niet met elkaar willen vergelijken.
Met behulp van de onderstaande code vergelijken we bijvoorbeeld de groepsgemiddelden van B, C en D met die van groep A. We gebruiken groep A dus als controlegroep en zijn niet geïnteresseerd in de verschillen tussen de groepen B, C. ., en D.
#load multcomp library necessary for using Dunnett's Correction library(multicomp) #convert group variable to factor data_long$group <- as.factor(data_long$group) #fit anova model anova_model <- aov(amount ~ group, data = data_long) #performcomparisons dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett")) #view summary of comparisons summary(dunnet_comparison) #Multiple Comparisons of Means: Dunnett Contrasts # #Fit: aov(formula = amount ~ group, data = data_long) # #Linear Assumptions: #Estimate Std. Error t value Pr(>|t|) #B - A == 0 0.2823 0.2188 1.290 0.432445 #C - A == 0 0.8561 0.2188 3.912 0.000545 *** #D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***
Uit de p-waarden in de uitvoer kunnen we het volgende zien:
- Het verschil tussen het gemiddelde van groep B en dat van groep A is niet statistisch significant op het significantieniveau van 0,05. De p-waarde voor deze test is 0,4324 .
- Het verschil tussen het gemiddelde van Groep C en Groep A is statistisch significant op een significantieniveau van 0,05. De p-waarde voor deze test is 0,0005 .
- Het verschil tussen het gemiddelde van Groep D en Groep A is statistisch significant op een significantieniveau van 0,05. De p-waarde voor deze test is 0,00004 .
Zoals eerder opgemerkt, behandelt deze benadering Groep A als de ‘controlegroep’ en vergelijkt eenvoudigweg het gemiddelde van alle andere groepen met dat van Groep A. Merk op dat er geen tests worden uitgevoerd voor verschillen tussen de groepen B, C en D, omdat we dat niet doen. doe het niet. Ik ben niet geïnteresseerd in de verschillen tussen deze groepen.
Een opmerking over post-hoctesten en statistische kracht
Post-hoctests zijn uitstekend geschikt om het foutenpercentage binnen het gezin onder controle te houden, maar de wisselwerking is dat ze de statistische kracht van de vergelijkingen verminderen. De enige manier om het foutenpercentage binnen het gezin te verlagen is door een lager significantieniveau te gebruiken voor alle individuele vergelijkingen.
Als we bijvoorbeeld de Tukey-test gebruiken voor zes paarsgewijze vergelijkingen en we een familiefoutpercentage van 0,05 willen handhaven, moeten we voor elk afzonderlijk significantieniveau een significantieniveau van ongeveer 0,011 gebruiken. Hoe meer paarsgewijze vergelijkingen we maken, hoe lager het significantieniveau dat we voor elk afzonderlijk significantieniveau moeten gebruiken.
Het probleem is dat lagere significantieniveaus overeenkomen met een lagere statistische kracht. Dit betekent dat als er inderdaad een verschil tussen groepsgemiddelden bestaat in de populatie, een minder krachtige studie dit minder waarschijnlijk zal ontdekken.
Eén manier om de effecten van deze afweging te verminderen, is door eenvoudigweg het aantal paarsgewijze vergelijkingen dat we uitvoeren te verminderen. In de voorgaande voorbeelden hebben we bijvoorbeeld zes paarsgewijze vergelijkingen uitgevoerd voor de vier verschillende groepen. Afhankelijk van de behoeften van je studie wil je misschien maar een paar vergelijkingen maken.
Door minder vergelijkingen te maken, hoeft u de statistische kracht niet zo veel te verminderen.
Het is belangrijk op te merken dat u vóór het uitvoeren van de ANOVA precies moet bepalen welke groepen u vergelijkingen wilt maken en welke post-hoctest u gaat gebruiken om deze vergelijkingen te maken. Anders, als je simpelweg ziet welke post-hoctest statistisch significante resultaten oplevert, vermindert dit de integriteit van het onderzoek.
Conclusie
In dit artikel hebben we de volgende dingen geleerd:
- Een ANOVA wordt gebruikt om te bepalen of er al dan niet een statistisch significant verschil bestaat tussen de gemiddelden van drie of meer onafhankelijke groepen.
- Als een ANOVA een p-waarde oplevert die onder ons significantieniveau ligt, kunnen we post-hoctests gebruiken om erachter te komen welke groepsgemiddelden van elkaar verschillen.
- Met post-hoc tests kunnen we het foutenpercentage per gezin controleren terwijl we verschillende paarsgewijze vergelijkingen uitvoeren.
- De wisselwerking tussen het beheersen van het familiefoutenpercentage is minder statistische kracht. We kunnen de effecten van een lagere statistische kracht verminderen door minder paarsgewijze vergelijkingen te maken.
- U moet eerst bepalen op welke groepen u paarsgewijze vergelijkingen wilt uitvoeren en welke post-hoctest u daarvoor gaat gebruiken.