Ein leitfaden zur verwendung von post-hoc-tests mit anova


Eine ANOVA ist ein statistischer Test, mit dem ermittelt wird, ob ein statistisch signifikanter Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen besteht.

Die in einer ANOVA verwendeten Annahmen sind wie folgt:

Die Nullhypothese (H 0 ): µ 1 = µ 2 = µ 3 = … = µ k (die Mittelwerte sind für jede Gruppe gleich)

Die Alternativhypothese: (Ha): Mindestens eines der Mittel unterscheidet sich von den anderen

Wenn der p-Wert der ANOVA unter dem Signifikanzniveau liegt, können wir die Nullhypothese ablehnen und daraus schließen, dass wir über ausreichende Beweise verfügen, um zu sagen, dass sich mindestens einer der Gruppenmittelwerte von den anderen unterscheidet.

Dies sagt uns jedoch nicht, welche Gruppen sich voneinander unterscheiden. Dies zeigt uns einfach, dass nicht alle Gruppendurchschnitte gleich sind.

Um genau zu wissen, welche Gruppen sich voneinander unterscheiden, müssen wir einen Post-hoc-Test (auch Mehrfachvergleichstest genannt) durchführen, der es uns ermöglicht, den Unterschied zwischen den Mittelwerten mehrerer Gruppen zu untersuchen und gleichzeitig die Familie zu kontrollieren . angemessene Fehlerquote.

Technischer Hinweis: Es ist wichtig zu beachten, dass wir einen Post-hoc-Test nur dann durchführen sollten, wenn der ANOVA-p-Wert statistisch signifikant ist. Wenn der p-Wert statistisch nicht signifikant ist, bedeutet dies, dass sich die Mittelwerte aller Gruppen nicht voneinander unterscheiden. Daher ist es nicht erforderlich, einen Post-hoc-Test durchzuführen, um festzustellen, welche Gruppen sich voneinander unterscheiden.

Die Familienfehlerquote

Wie bereits erwähnt, ermöglichen uns Post-hoc-Tests, die Differenz zwischen den Mittelwerten mehrerer Gruppen zu testen und gleichzeitig die Fehlerquote pro Familie zu kontrollieren.

Beim Testen von Hypothesen gibt es immer eine Fehlerquote vom Typ I, die durch unser Signifikanzniveau (Alpha) definiert wird und uns die Wahrscheinlichkeit angibt, eine tatsächlich wahre Nullhypothese abzulehnen. Mit anderen Worten handelt es sich um die Wahrscheinlichkeit, ein „falsch positives Ergebnis“ zu erhalten, d. h. wenn wir behaupten, dass es einen statistisch signifikanten Unterschied zwischen den Gruppen gibt, obwohl dies in Wirklichkeit nicht der Fall ist.

Wenn wir Hypothesentests durchführen, entspricht die Fehlerrate vom Typ I dem Signifikanzniveau, das normalerweise mit 0,01, 0,05 oder 0,10 gewählt wird. Wenn wir jedoch mehrere Hypothesentests gleichzeitig durchführen, steigt die Wahrscheinlichkeit, ein falsch positives Ergebnis zu erhalten.

Stellen Sie sich zum Beispiel vor, wir würfeln mit einem 20-seitigen Würfel. Die Wahrscheinlichkeit, dass der Würfel auf eine „1“ fällt, beträgt nur 5 %. Wenn Sie jedoch zwei Würfel gleichzeitig würfeln, erhöht sich die Wahrscheinlichkeit, dass einer der Würfel auf einer „1“ landet, auf 9,75 %. Wenn wir fünf Würfel gleichzeitig würfeln, erhöht sich die Wahrscheinlichkeit auf 22,6 %.

Je mehr Würfel wir würfeln, desto höher ist die Wahrscheinlichkeit, dass einer der Würfel auf einer „1“ landet. Wenn wir mehrere Hypothesentests gleichzeitig mit einem Signifikanzniveau von 0,05 durchführen, steigt die Wahrscheinlichkeit, dass wir ein falsch positives Ergebnis erhalten, auf über 0,05 hinaus.

Mehrere Vergleiche in ANOVA

Wenn wir eine ANOVA durchführen, vergleichen wir oft drei oder mehr Gruppen. Wenn wir also einen Post-hoc-Test durchführen, um den Unterschied zwischen Gruppenmittelwerten zu untersuchen, möchten wir mehrere paarweise Vergleiche untersuchen.

Nehmen wir zum Beispiel an, wir haben vier Gruppen: A, B, C und D. Das bedeutet, dass es insgesamt sechs paarweise Vergleiche gibt, die wir mit einem Post-hoc-Test untersuchen möchten:

A – B (die Differenz zwischen dem Durchschnitt der Gruppe A und dem Durchschnitt der Gruppe B)
Wechselstrom
BEKANNTMACHUNG
B.C.
Comics
CD

Wenn wir mehr als vier Gruppen haben, wird die Anzahl der paarweisen Vergleiche, die wir durchführen möchten, nur noch weiter zunehmen. Die folgende Tabelle veranschaulicht die Anzahl der paarweisen Vergleiche, die jeder Gruppenanzahl zugeordnet sind, sowie die Fehlerrate pro Familie:

Beachten Sie, dass die Fehlerrate pro Familie schnell zunimmt, wenn die Anzahl der Gruppen (und damit die Anzahl der paarweisen Vergleiche) zunimmt. Sobald wir sechs Gruppen erreicht haben, liegt die Wahrscheinlichkeit, dass wir ein falsch positives Ergebnis erhalten, sogar bei über 50 %!

Das bedeutet, dass wir ernsthafte Zweifel an unseren Ergebnissen haben würden, wenn wir so viele paarweise Vergleiche durchführen müssten, obwohl wir wissen, dass unsere Familienfehlerquote so hoch ist.

Glücklicherweise können wir durch Post-hoc-Tests mehrere Vergleiche zwischen Gruppen durchführen und gleichzeitig die Fehlerrate pro Familie kontrollieren.

Beispiel: Einfaktorielle ANOVA mit Post-hoc-Tests

Das folgende Beispiel veranschaulicht, wie eine einfaktorielle ANOVA mit Post-hoc-Tests durchgeführt wird.

Hinweis: In diesem Beispiel wird die Programmiersprache R verwendet, aber Sie müssen R nicht kennen, um die Testergebnisse oder wichtigen Erkenntnisse zu verstehen.

Zuerst erstellen wir einen Datensatz mit vier Gruppen (A, B, C, D) mit 20 Beobachtungen pro Gruppe:

 #make this example reproducible
set.seed(1)

#load tidyr library to convert data from wide to long format
library(tidyr)

#create wide dataset
data <- data.frame(A = runif(20, 2, 5),
                   B = runif(20, 3, 5),
                   C = runif(20, 3, 6),
                   D = runif(20, 4, 6))

#convert to long dataset for ANOVA
data_long <- gather(data, key = "group", value = "amount", A, B, C, D)

#view first six lines of dataset
head(data_long)

# group amount
#1 To 2.796526
#2 A 3.116372
#3 A 3.718560
#4 A 4.724623
#5 A 2.605046
#6 A 4.695169

Als nächstes führen wir eine einfaktorielle ANOVA für den Datensatz durch:

 #fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#view summary of anova model
summary(anova_model)

# Df Sum Sq Mean Sq F value Pr(>F)    
#group 3 25.37 8.458 17.66 8.53e-09 ***
#Residuals 76 36.39 0.479            

Aus dem Ergebnis der ANOVA-Tabelle sehen wir, dass die F-Statistik 17,66 beträgt und der entsprechende p-Wert extrem klein ist.

Das bedeutet, dass wir genügend Beweise haben, um die Nullhypothese, dass alle Gruppenmittelwerte gleich sind, abzulehnen. Dann können wir einen Post-hoc-Test verwenden, um festzustellen, welche Gruppenmittelwerte sich voneinander unterscheiden.

Wir werden Beispiele der folgenden Post-hoc-Tests überprüfen:

Tukey-Test – nützlich, wenn Sie alle möglichen paarweisen Vergleiche durchführen möchten

Holms Methode – ein etwas konservativerer Test als der Tukey-Test

Dunnett-Korrektur – nützlich, wenn Sie den Mittelwert jeder Gruppe mit einem Kontrollmittel vergleichen möchten und die Behandlungsmittelwerte nicht miteinander vergleichen möchten.

Tukey-Test

Wir können den Tukey-Test für mehrere Vergleiche mit der integrierten R-Funktion TukeyHSD() wie folgt durchführen:

 #perform Tukey's Test for multiple comparisons
TukeyHSD(anova_model, conf.level=.95) 

#Tukey multiple comparisons of means
# 95% family-wise confidence level
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#$group
# diff lwr upr p adj
#BA 0.2822630 -0.292540425 0.8570664 0.5721402
#CA 0.8561388 0.281335427 1.4309423 0.0011117
#DA 1.4676027 0.892799258 2.0424061 0.0000000
#CB 0.5738759 -0.000927561 1.1486793 0.0505270
#DB 1.1853397 0.610536271 1.7601431 0.0000041
#DC 0.6114638 0.036660419 1.1862672 0.0326371

Beachten Sie, dass wir angegeben haben, dass unser Konfidenzniveau 95 % beträgt, was bedeutet, dass unsere Fehlerrate pro Familie 0,05 betragen soll. R gibt uns zwei Metriken zum Vergleich jeder paarweisen Differenz:

  • Konfidenzintervall für die mittlere Differenz (gegeben durch die Werte von lwr und upr )
  • p-Wert angepasst an die Mittelwertdifferenz

Das Konfidenzintervall und der p-Wert führen zu derselben Schlussfolgerung.

Beispielsweise beträgt das 95 %-Konfidenzintervall für die mittlere Differenz zwischen Gruppe C und Gruppe A (0,2813, 1,4309), und da dieses Intervall nicht Null enthält, wissen wir, dass die Differenz zwischen den Mittelwerten dieser beiden Gruppen statistisch signifikant ist. Insbesondere wissen wir, dass die Differenz positiv ist, da die untere Grenze des Konfidenzintervalls größer als Null ist.

Ebenso beträgt der p-Wert für die mittlere Differenz zwischen Gruppe C und Gruppe A 0,0011, was niedriger ist als unser Signifikanzniveau von 0,05, was ebenfalls darauf hinweist, dass die Differenz zwischen den Mittelwerten dieser beiden Gruppen statistisch signifikant ist.

Wir können die 95 %-Konfidenzintervalle, die sich aus dem Tukey-Test ergeben, auch mithilfe der Funktion plot() in R visualisieren:

 plot(TukeyHSD(anova_model, conf.level=.95))

Wenn das Intervall Null enthält, wissen wir, dass die Differenz zwischen den Gruppenmittelwerten statistisch nicht signifikant ist. Im obigen Beispiel sind die Unterschiede für BA und CB statistisch nicht signifikant, die Unterschiede für die anderen vier paarweisen Vergleiche sind jedoch statistisch signifikant.

Holms Methode

Ein weiterer Post-hoc-Test, den wir durchführen können, ist die Holm-Methode. Dieser Test gilt im Allgemeinen als konservativer als der Tukey-Test.

Wir können den folgenden Code in R verwenden, um die Holm-Methode für mehrere paarweise Vergleiche auszuführen:

 #perform holm's method for multiple comparisons
pairwise.t.test(data_long$amount, data_long$group, p.adjust="holm") 
# Pairwise comparisons using t tests with pooled SD 
#
#data: data_long$amount and data_long$group 
#
#ABC
#B 0.20099 - -      
#C 0.00079 0.02108 -      
#D 1.9e-08 3.4e-06 0.01974
#
#P value adjustment method: holm

Dieser Test liefert ein Raster von p-Werten für jeden paarweisen Vergleich. Beispielsweise beträgt der p-Wert für die Differenz zwischen dem Mittelwert von Gruppe A und Gruppe B 0,20099.

Wenn Sie die p-Werte aus diesem Test mit den p-Werten aus dem Tukey-Test vergleichen, werden Sie feststellen, dass jeder der paarweisen Vergleiche zu derselben Schlussfolgerung führt, mit Ausnahme des Unterschieds zwischen den Gruppen C und D. Der p Der Wert für diesen Unterschied betrug 0,0505 im Tukey-Test im Vergleich zu 0,02108 im Holm-Verfahren.

Mithilfe des Tukey-Tests kamen wir zu dem Schluss, dass der Unterschied zwischen Gruppe C und Gruppe D auf dem Signifikanzniveau von 0,05 statistisch nicht signifikant war. Mithilfe der Holm-Methode kamen wir jedoch zu dem Schluss, dass der Unterschied zwischen Gruppe C und Gruppe D statistisch signifikant war .

Im Allgemeinen sind die mit der Holm-Methode ermittelten p-Werte tendenziell niedriger als die mit dem Tukey-Test ermittelten.

Dunnetts Korrektur

Eine weitere Methode, die wir für Mehrfachvergleiche nutzen können, ist die Dunett-Korrektur. Wir würden diesen Ansatz verwenden, wenn wir die Mittelwerte jeder Gruppe mit einem Kontrollmittelwert vergleichen möchten, die Behandlungsmittelwerte jedoch nicht miteinander vergleichen möchten.

Mit dem folgenden Code vergleichen wir beispielsweise die Gruppenmittelwerte von B, C und D mit denen der Gruppe A. Somit verwenden wir Gruppe A als Kontrollgruppe und sind nicht an den Unterschieden zwischen den Gruppen B, C interessiert ., und D.

 #load multcomp library necessary for using Dunnett's Correction
library(multicomp)

#convert group variable to factor 
data_long$group <- as.factor(data_long$group)

#fit anova model
anova_model <- aov(amount ~ group, data = data_long)

#performcomparisons
dunnet_comparison <- glht(anova_model, linfct = mcp(group = "Dunnett"))

#view summary of comparisons
summary(dunnet_comparison)

#Multiple Comparisons of Means: Dunnett Contrasts
#
#Fit: aov(formula = amount ~ group, data = data_long)
#
#Linear Assumptions:
#Estimate Std. Error t value Pr(>|t|)    
#B - A == 0 0.2823 0.2188 1.290 0.432445    
#C - A == 0 0.8561 0.2188 3.912 0.000545 ***
#D - A == 0 1.4676 0.2188 6.707 < 1e-04 ***

Anhand der p-Werte in der Ausgabe können wir Folgendes erkennen:

  • Der Unterschied zwischen dem Mittelwert der Gruppe B und dem der Gruppe A ist auf dem Signifikanzniveau von 0,05 statistisch nicht signifikant. Der p-Wert für diesen Test beträgt 0,4324 .
  • Der Unterschied zwischen dem Mittelwert der Gruppe C und der Gruppe A ist mit einem Signifikanzniveau von 0,05 statistisch signifikant. Der p-Wert für diesen Test beträgt 0,0005 .
  • Der Unterschied zwischen dem Mittelwert von Gruppe D und Gruppe A ist mit einem Signifikanzniveau von 0,05 statistisch signifikant. Der p-Wert für diesen Test beträgt 0,00004 .

Wie bereits erwähnt, behandelt dieser Ansatz Gruppe A als „Kontrollgruppe“ und vergleicht einfach den Mittelwert aller anderen Gruppen mit dem der Gruppe A. Beachten Sie, dass keine Tests für Unterschiede zwischen den Gruppen B, C und D durchgeführt werden, da wir keine Tests durchführen. Ich tue es nicht. Die Unterschiede zwischen diesen Gruppen interessieren mich nicht.

Ein Hinweis zu Post-hoc-Tests und statistischer Aussagekraft

Post-hoc-Tests eignen sich hervorragend zur Kontrolle der familienbezogenen Fehlerrate, haben jedoch den Nachteil, dass sie die statistische Aussagekraft der Vergleiche verringern. Tatsächlich besteht die einzige Möglichkeit, die familienbezogene Fehlerquote zu verringern, darin, für alle Einzelvergleiche ein niedrigeres Signifikanzniveau zu verwenden.

Wenn wir beispielsweise den Tukey-Test für sechs paarweise Vergleiche verwenden und eine Familienfehlerrate von 0,05 beibehalten möchten, sollten wir für jedes einzelne Signifikanzniveau ein Signifikanzniveau von etwa 0,011 verwenden. Je mehr paarweise Vergleiche wir durchführen, desto niedriger ist das Signifikanzniveau, das wir für jedes einzelne Signifikanzniveau verwenden sollten.

Das Problem besteht darin, dass niedrigere Signifikanzniveaus einer geringeren statistischen Aussagekraft entsprechen. Das heißt, wenn tatsächlich ein Unterschied zwischen den Gruppenmitteln in der Population besteht, ist es weniger wahrscheinlich, dass eine Studie mit geringerer Aussagekraft diesen Unterschied erkennt.

Eine Möglichkeit, die Auswirkungen dieses Kompromisses zu verringern, besteht darin, einfach die Anzahl der von uns durchgeführten paarweisen Vergleiche zu reduzieren. In den vorherigen Beispielen haben wir beispielsweise sechs paarweise Vergleiche für die vier verschiedenen Gruppen durchgeführt. Abhängig von den Anforderungen Ihrer Studie möchten Sie jedoch möglicherweise nur wenige Vergleiche anstellen.

Indem Sie weniger Vergleiche durchführen, müssen Sie die statistische Aussagekraft nicht so stark reduzieren.

Es ist wichtig zu beachten, dass Sie vor der Durchführung der ANOVA genau festlegen müssen, welche Gruppen Sie vergleichen möchten und welchen Post-hoc-Test Sie für diese Vergleiche verwenden werden. Andernfalls wird die Integrität der Studie beeinträchtigt, wenn Sie lediglich sehen, welcher Post-hoc-Test statistisch signifikante Ergebnisse liefert.

Abschluss

In diesem Artikel haben wir Folgendes gelernt:

  • Eine ANOVA wird verwendet, um zu bestimmen, ob ein statistisch signifikanter Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen besteht.
  • Wenn eine ANOVA einen p-Wert unterhalb unseres Signifikanzniveaus ergibt, können wir mithilfe von Post-hoc-Tests herausfinden, welche Gruppenmittelwerte sich voneinander unterscheiden.
  • Mit Post-hoc-Tests können wir die Fehlerrate pro Familie kontrollieren und gleichzeitig mehrere paarweise Vergleiche durchführen.
  • Der Kompromiss bei der Kontrolle der familienbezogenen Fehlerquote ist eine geringere statistische Aussagekraft. Wir können die Auswirkungen einer geringeren statistischen Aussagekraft reduzieren, indem wir weniger paarweise Vergleiche durchführen.
  • Sie müssen zunächst festlegen, für welche Gruppen Sie paarweise Vergleiche durchführen möchten und welchen Post-hoc-Test Sie dafür verwenden möchten.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert