Was ist die unabhängigkeitsannahme in der statistik?
Viele statistische Tests gehen davon aus, dass Beobachtungen unabhängig sind. Das bedeutet, dass keine Beobachtungen in einem Datensatz miteinander in Zusammenhang stehen oder sich in irgendeiner Weise gegenseitig beeinflussen.
Nehmen wir zum Beispiel an, wir möchten testen, ob es einen Unterschied im Durchschnittsgewicht zwischen zwei Katzenarten gibt oder nicht. Wenn wir das Gewicht von 10 Katzen der Art A und 10 Katzen der Art B messen würden, würden wir die Annahme der Unabhängigkeit verletzen, wenn jede der Katzengruppen aus demselben Wurf stammen würde.
Es ist möglich, dass die Mutterkatze der Art A einfach alle Kätzchen mit geringem Gewicht hatte, während die Mutterkatze der Art B schwere Kätzchen hatte. In dieser Hinsicht sind die Beobachtungen jeder Stichprobe nicht unabhängig voneinander.
Es gibt drei gängige Arten statistischer Tests, die diese Annahme der Unabhängigkeit zugrunde legen:
1. T-Test bei zwei Stichproben
In den folgenden Abschnitten erklären wir, warum diese Annahme für jeden Testtyp getroffen wird und wie festgestellt werden kann, ob diese Annahme erfüllt ist oder nicht.
Annahme der Unabhängigkeit in t-Tests
Ein T-Test mit zwei Stichproben wird verwendet, um zu testen, ob die Mittelwerte zweier Grundgesamtheiten gleich sind oder nicht.
Annahme: Bei dieser Art von Test wird davon ausgegangen, dass die Beobachtungen innerhalb jeder Stichprobe unabhängig voneinander sind und dass die Beobachtungen zwischen den Stichproben ebenfalls unabhängig voneinander sind.
Testen Sie diese Hypothese: Der einfachste Weg, diese Hypothese zu testen, besteht darin, zu überprüfen, ob jede Beobachtung in jeder Stichprobe nur einmal vorkommt und dass die Beobachtungen in jeder Stichprobe durch Zufallsstichproben gesammelt wurden.
Unabhängigkeitsannahme in der ANOVA
Eine ANOVA wird verwendet, um zu bestimmen, ob ein signifikanter Unterschied zwischen den Mittelwerten von drei oder mehr unabhängigen Gruppen besteht.
Annahme: Eine ANOVA geht davon aus, dass die Beobachtungen in jeder Gruppe unabhängig voneinander sind und dass die Beobachtungen innerhalb der Gruppen durch eine Zufallsstichprobe gewonnen wurden.
Testen Sie diese Hypothese: Ähnlich wie bei einem t-Test besteht der einfachste Weg, diese Hypothese zu testen, darin, zu überprüfen, ob jede Beobachtung in jeder Stichprobe nur einmal vorkommt und dass die Beobachtungen in jeder Stichprobe durch Zufallsstichproben gesammelt wurden.
Unabhängigkeit bei angenommener Regression
Die lineare Regression wird verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu verstehen.
Annahme: Bei der linearen Regression wird davon ausgegangen, dass die Residuen des angepassten Modells unabhängig sind.
Testen Sie diese Hypothese: Der einfachste Weg, diese Hypothese zu testen, besteht darin, sich ein Zeitreihendiagramm der Residuen anzusehen, bei dem es sich um ein Diagramm der Residuen gegenüber der Zeit handelt. Im Idealfall sollten die meisten Restautokorrelationen innerhalb der 95 %-Konfidenzbänder um Null liegen, die ungefähr +/- 2 auf der Quadratwurzel von n liegen, wobei n die Stichprobengröße ist. Sie können auch formal testen, ob diese Annahme erfüllt ist, indem Sie den Durbin-Watson-Test verwenden.
Gemeinsame Ursachen der Nichtunabhängigkeit
Es gibt drei häufige Ursachen für Nichtunabhängigkeit in Datensätzen:
1. Beobachtungen werden zeitlich geschlossen.
Beispielsweise könnte ein Forscher Daten über die Durchschnittsgeschwindigkeit von Autos auf einer bestimmten Straße sammeln. Wenn er sich dafür entscheidet, die Geschwindigkeiten am Abend zu messen, stellt er möglicherweise fest, dass die Durchschnittsgeschwindigkeit viel höher ist als erwartet, einfach weil alle Fahrer von der Arbeit nach Hause eilen.
Diese Daten verstoßen gegen die Annahme, dass jede Beobachtung unabhängig ist. Da jede Beobachtung zur gleichen Tageszeit beobachtet wurde, ist die Geschwindigkeit jedes Autos wahrscheinlich ähnlich.
2. Die Beobachtungen sind räumlich geschlossen.
Beispielsweise könnte ein Forscher aus praktischen Gründen Jahreseinkommensdaten von Personen sammeln, die alle in derselben Gegend mit hohem Einkommen leben.
In dieser Hinsicht dürften alle in die Datenstichprobe einbezogenen Personen ein ähnliches Einkommen haben, da sie alle in unmittelbarer Nähe zueinander leben. Dies verstößt gegen die Annahme, dass jede Beobachtung unabhängig ist.
3. Beobachtungen erscheinen mehrmals im selben Datensatz.
Beispielsweise muss ein Forscher möglicherweise Daten von 50 Personen sammeln, beschließt jedoch, die Daten von 25 Personen zweimal zu sammeln, weil dies viel einfacher ist.
Dies verstößt gegen die Unabhängigkeitsannahme, da jede Beobachtung im Datensatz auf sich selbst bezogen wird.
Wie man eine Verletzung der Unabhängigkeitsannahme vermeidet
Der einfachste Weg, eine Verletzung der Unabhängigkeitsannahme zu vermeiden, besteht darin, bei der Gewinnung einer Stichprobe aus einer Grundgesamtheit einfach eine einfache Zufallsstichprobe zu verwenden.
Mit dieser Methode hat jedes Individuum in der interessierenden Grundgesamtheit die gleiche Chance, in die Stichprobe aufgenommen zu werden.
Wenn unsere interessierende Grundgesamtheit beispielsweise 10.000 Individuen umfasst, können wir jedem Individuum in der Grundgesamtheit zufällig eine Zahl zuweisen und dann einen Zufallszahlengenerator verwenden, um 40 Zufallszahlen auszuwählen. Personen mit diesen Zahlen würden dann in die Stichprobe einbezogen.
Durch die Verwendung dieser Methode minimieren wir die Wahrscheinlichkeit, dass wir zwei Personen auswählen, die einander sehr nahe stehen oder auf irgendeine Weise verwandt sind.
Dies steht im direkten Gegensatz zu anderen Probenahmemethoden wie:
- Convenience-Sampling: Einbeziehung von Personen in eine Stichprobe, die einfach leicht zu erreichen sind.
- Freiwillige Stichprobe: Einbeziehung von Personen in eine Stichprobe, die sich freiwillig zur Aufnahme bereit erklären.
Durch die Verwendung einer Zufallsstichprobenmethode können wir die Wahrscheinlichkeit einer Verletzung der Unabhängigkeitsannahme minimieren.
Zusätzliche Ressourcen
Die vier Hypothesen werden in einem T-Test formuliert
Die vier Annahmen der linearen Regression
Die drei Hypothesen der ANOVA
Was ist eine repräsentative Stichprobe und warum ist sie wichtig?