Was ist die annahme gleicher varianz in der statistik?
Viele statistische Tests gehen von der Annahme gleicher Varianz aus. Wird diese Annahme nicht beachtet, werden die Testergebnisse unzuverlässig.
Zu den gebräuchlichsten statistischen Tests und Verfahren, die diese Annahme gleicher Varianz machen, gehören:
1. ANOVA
2. t-Tests
3. Lineare Regression
In diesem Tutorial wird die für jeden Test getroffene Annahme erläutert, wie festgestellt wird, ob diese Annahme erfüllt ist, und was zu tun ist, wenn sie verletzt wird.
Annahme der Varianzgleichheit in der ANOVA
Eine ANOVA („Varianzanalyse“) wird verwendet, um zu bestimmen, ob zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen ein signifikanter Unterschied besteht oder nicht.
Hier ist ein Beispiel dafür, wann wir eine ANOVA verwenden könnten:
Nehmen wir an, wir rekrutieren 90 Personen für die Teilnahme an einem Abnehmexperiment. Wir weisen 30 Personen nach dem Zufallsprinzip zu, einen Monat lang Programm A, B oder C zu verwenden.
Um zu sehen, ob das Programm einen Einfluss auf die Gewichtsabnahme hat, können wir eine einfaktorielle ANOVA durchführen.
Eine ANOVA geht davon aus, dass jede der Gruppen die gleiche Varianz aufweist. Es gibt zwei Möglichkeiten zu testen, ob diese Hypothese wahr ist:
1. Erstellen Sie Boxplots.
Boxplots bieten eine visuelle Möglichkeit, die Annahme der Varianzgleichheit zu überprüfen.
Die Varianz des Gewichtsverlusts in jeder Gruppe kann anhand der Länge jedes Boxplots beobachtet werden. Je länger die Box ist, desto höher ist die Varianz. Wir können beispielsweise erkennen, dass die Varianz bei Teilnehmern an Programm C etwas höher ist als bei Teilnehmern an Programm A und Programm B.
2. Führen Sie den Bartlett-Test durch.
Der Bartlett-Test testet die Nullhypothese, dass die Stichproben gleiche Varianzen aufweisen, im Vergleich zur Alternativhypothese, dass die Stichproben keine gleichen Varianzen aufweisen.
Wenn der p-Wert des Tests unter einem bestimmten Signifikanzniveau liegt (z. B. 0,05), haben wir Hinweise darauf, dass nicht alle Stichproben die gleichen Varianzen aufweisen.
Was passiert, wenn die Annahme gleicher Varianz nicht erfüllt ist?
Im Allgemeinen gelten ANOVAs als ziemlich robust gegenüber Verstößen gegen die Annahme gleicher Varianzen, solange jede Gruppe die gleiche Stichprobengröße hat.
Wenn die Stichprobengrößen jedoch nicht gleich sind und diese Annahme schwerwiegend verletzt wird, können Sie stattdessen einen Kruskal-Wallis-Test ausführen, bei dem es sich um die nichtparametrische Version der einfaktoriellen ANOVA handelt.
Annahme gleicher Varianz in t-Tests
Ein T-Test mit zwei Stichproben wird verwendet, um zu testen, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht.
Der Test geht davon aus, dass die Varianzen zwischen den beiden Gruppen gleich sind. Es gibt zwei Möglichkeiten zu testen, ob diese Hypothese wahr ist:
1. Verwenden Sie die Verhältnis-Faustregel.
Wenn das Verhältnis der größten Varianz zur kleinsten Varianz im Allgemeinen weniger als 4 beträgt, können wir davon ausgehen, dass die Varianzen ungefähr gleich sind, und den t-Test bei zwei Stichproben verwenden.
Angenommen, Stichprobe 1 weist eine Varianz von 24,5 und Stichprobe 2 eine Varianz von 15,2 auf. Das Verhältnis der größten Stichprobenvarianz zur kleinsten Stichprobenvarianz würde wie folgt berechnet: 24,5 / 15,2 = 1,61.
Da dieses Verhältnis weniger als 4 beträgt, könnte man davon ausgehen, dass die Unterschiede zwischen den beiden Gruppen ungefähr gleich sind.
2. Führen Sie einen F-Test durch.
Der F-Test testet die Nullhypothese, dass die Stichproben gleiche Varianzen aufweisen, im Vergleich zur Alternativhypothese, dass die Stichproben keine gleichen Varianzen aufweisen.
Wenn der p-Wert des Tests unter einem bestimmten Signifikanzniveau liegt (z. B. 0,05), haben wir Hinweise darauf, dass nicht alle Stichproben die gleichen Varianzen aufweisen.
Was passiert, wenn die Annahme gleicher Varianz nicht erfüllt ist?
Wenn diese Annahme verletzt wird, können wir den Welch-T-Test durchführen, der eine nichtparametrische Version des Zwei-Stichproben-T-Tests ist und nicht davon ausgeht, dass die beiden Stichproben gleiche Varianzen haben.
Annahme gleicher Varianz in der linearen Regression
Die lineare Regression wird verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.
Bei der linearen Regression wird davon ausgegangen, dass die Residuen auf jeder Ebene der Prädiktorvariablen eine konstante Varianz aufweisen. Dies nennt man Homoskedastizität . Wenn dies nicht der Fall ist, leiden die Residuen unter Heteroskedastizität und die Ergebnisse der Regressionsanalyse werden unzuverlässig.
Der gebräuchlichste Weg, um festzustellen, ob diese Annahme erfüllt ist, besteht darin, ein Diagramm der Residuen im Vergleich zu den angepassten Werten zu erstellen. Wenn die Residuen in diesem Diagramm zufällig um Null herum verstreut zu sein scheinen, ist die Annahme der Homoskedastizität wahrscheinlich erfüllt.
Wenn es jedoch einen systematischen Trend in den Residuen gibt, wie etwa die „Kegel“-Form in der folgenden Grafik, dann ist Heteroskedastizität ein Problem:
Was passiert, wenn die Annahme gleicher Varianz nicht erfüllt ist?
Wenn diese Annahme verletzt wird, besteht die häufigste Lösung des Problems darin, die Antwortvariable mithilfe einer von drei Transformationen zu transformieren:
1. Log-Transformation: Transformieren Sie die Antwortvariable von y in log(y) .
2. Quadratwurzeltransformation: Transformieren Sie die Antwortvariable von y in √y .
3. Kubikwurzeltransformation: Transformieren Sie die Antwortvariable von y in y 1/3 .
Durch die Durchführung dieser Transformationen verschwindet im Allgemeinen das Problem der Heteroskedastizität.
Eine andere Möglichkeit zur Korrektur der Heteroskedastizität ist die Verwendung der gewichteten Regression der kleinsten Quadrate . Diese Art der Regression weist jedem Datenpunkt basierend auf der Varianz seines angepassten Werts eine Gewichtung zu.
Im Wesentlichen werden dadurch Datenpunkte mit höheren Varianzen niedrig gewichtet, wodurch ihre Restquadrate reduziert werden. Durch die Verwendung geeigneter Gewichte kann das Problem der Heteroskedastizität beseitigt werden.
Zusätzliche Ressourcen
Die drei in einer ANOVA formulierten Hypothesen
Die vier Hypothesen werden in einem T-Test formuliert
Die vier Annahmen der linearen Regression