Eine einfache erklärung der statistischen versus praktischen bedeutung


Eine statistische Hypothese ist eine Annahme über einen Populationsparameter . Wir können beispielsweise davon ausgehen, dass die durchschnittliche Körpergröße eines Mannes in einem bestimmten Landkreis 68 Zoll beträgt. Die Hypothese bezüglich der Körpergröße ist die statistische Hypothese und die wahre Durchschnittsgröße eines Mannes in den Vereinigten Staaten ist der Bevölkerungsparameter .

Ein Hypothesentest ist ein formaler statistischer Test, den wir verwenden, um eine statistische Hypothese abzulehnen oder nicht abzulehnen. Um Hypothesentests durchzuführen, entnehmen wir eine Zufallsstichprobe aus der Grundgesamtheit und bestimmen, ob die Daten in der Stichprobe wahrscheinlich aufgetreten sind, vorausgesetzt, die Nullhypothese ist tatsächlich wahr.

Wenn die Stichprobendaten unter dieser Hypothese hinreichend unwahrscheinlich sind, können wir die Nullhypothese ablehnen und daraus schließen, dass ein Effekt vorliegt.

Die Art und Weise, wie wir bestimmen, ob die Stichprobendaten unter der Annahme, dass Null wahr ist, „unwahrscheinlich genug“ sind, besteht darin, ein bestimmtes Signifikanzniveau festzulegen (normalerweise 0,01, 0,05 oder 0,10) und dann zu prüfen, ob der p-Wert des Hypothesentests kleiner ist als dieses Signifikanzniveau.

Wenn der p-Wert unter dem Signifikanzniveau liegt, sprechen wir von statistisch signifikanten Ergebnissen. Es bedeutet lediglich, dass ein bestimmter Effekt vorhanden ist, aber es bedeutet nicht unbedingt, dass dieser Effekt in der realen Welt tatsächlich praktisch ist. Die Ergebnisse können statistisch signifikant sein, ohne praktisch signifikant zu sein.

Verwandt: Eine Erklärung der P-Werte und der statistischen Signifikanz

Praktische Bedeutung

Es ist möglich, dass Hypothesentests trotz einer geringen Effektgröße statistisch signifikante Ergebnisse liefern. Es gibt im Wesentlichen zwei Möglichkeiten, wie kleine Effektgrößen zu niedrigen (und daher statistisch signifikanten) p-Werten führen können:

1. Die Variabilität der erfassten Daten ist sehr gering. Wenn Ihre Stichprobendaten eine geringe Variabilität aufweisen, kann ein Hypothesentest präzisere Schätzungen des Populationseffekts liefern, sodass der Test auch kleine Effekte erkennen kann.

Angenommen, wir möchten einen unabhängigen T-Test mit zwei Stichproben für die folgenden zwei Stichproben durchführen, die die Testergebnisse von 20 Schülern aus zwei verschiedenen Schulen zeigen, um festzustellen, ob sich die durchschnittlichen Testergebnisse zwischen den Schulen erheblich unterscheiden:

 sample 1: 85 85 86 86 85 86 86 86 86 85 85 85 86 85 86 85 86 86 85 86
sample 2: 87 86 87 86 86 86 86 86 87 86 86 87 86 86 87 87 87 86 87 86

Der Mittelwert von Stichprobe 1 beträgt 85,55 und der Mittelwert von Stichprobe 2 beträgt 86,40 . Wenn wir einen unabhängigen t-Test bei zwei Stichproben durchführen, stellt sich heraus, dass die Teststatistik -5,3065 beträgt und der entsprechende p-Wert <0,0001 ist. Der Unterschied zwischen den Testergebnissen ist statistisch signifikant.

Der Unterschied zwischen den durchschnittlichen Testergebnissen dieser beiden Stichproben beträgt nur 0,85 , aber die geringe Variabilität der Testergebnisse für jede Schule führt zu einem statistisch signifikanten Ergebnis. Beachten Sie, dass die Standardabweichung der Ergebnisse 0,51 für Stichprobe 1 und 0,50 für Stichprobe 2 beträgt.

Diese geringe Variabilität ermöglichte es dem Hypothesentest, den kleinen Unterschied zwischen den Bewertungen zu erkennen und die Unterschiede statistisch signifikant zu machen.

Der Grund dafür, dass eine geringe Variabilität zu statistisch signifikanten Schlussfolgerungen führen kann, liegt darin, dass die t- Test-Statistik für einen unabhängigen t-Test bei zwei Stichproben wie folgt berechnet wird:

Teststatistik t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

wobei s 2 1 und s 2 2 die Stichprobenvariation für Stichprobe 1 bzw. Stichprobe 2 angeben. Beachten Sie, dass der ganzzahlige Nenner der t- Test-Statistik klein ist, wenn diese beiden Zahlen klein sind.

Und wenn man durch eine kleine Zahl dividiert, erhält man eine große Zahl. Dies bedeutet, dass die t- Test-Statistik groß und der entsprechende p-Wert klein ist, was zu statistisch signifikanten Ergebnissen führt.

2. Die Stichprobengröße ist sehr groß. Je größer die Stichprobe, desto größer ist die statistische Aussagekraft eines Hypothesentests, sodass auch kleine Effekte erkannt werden können. Dies kann trotz kleinerer Effekte, die möglicherweise keine praktische Bedeutung haben, zu statistisch signifikanten Ergebnissen führen.

Angenommen, wir möchten einen unabhängigen T-Test mit zwei Stichproben für die folgenden zwei Stichproben durchführen, die die Testergebnisse von 20 Schülern aus zwei verschiedenen Schulen zeigen, um festzustellen, ob sich die durchschnittlichen Testergebnisse zwischen den Schulen erheblich unterscheiden:

 Sample 1: 88 89 91 94 87 94 94 92 91 86 87 87 92 89 93 90 92 95 89 93
Sample 2: 95 88 93 87 89 90 86 90 95 89 91 92 91 88 94 93 94 87 93 90

Wenn wir für jede Stichprobe ein Boxplot erstellen, um die Verteilung der Bewertungen anzuzeigen, können wir sehen, dass sie sehr ähnlich aussehen:

Der Mittelwert von Stichprobe 1 beträgt 90,65 und der Mittelwert von Stichprobe 2 beträgt 90,75 . Die Standardabweichung für Probe 1 beträgt 2,77 und die Standardabweichung für Probe 2 beträgt 2,78 . Wenn wir einen unabhängigen t-Test bei zwei Stichproben durchführen, stellt sich heraus, dass die Teststatistik -0,113 und der entsprechende p-Wert 0,91 beträgt. Der Unterschied zwischen den durchschnittlichen Testergebnissen ist statistisch nicht signifikant.

Bedenken Sie jedoch, dass die Stichprobengrößen beider Stichproben jeweils 200 betragen würden. In diesem Fall würde ein unabhängiger t-Test bei zwei Stichproben ergeben, dass die Teststatistik -1,97 beträgt und der entsprechende p-Wert knapp unter 0,05 liegt. Der Unterschied zwischen den durchschnittlichen Testergebnissen ist statistisch signifikant.

Der zugrunde liegende Grund, warum große Stichprobengrößen zu statistisch signifikanten Schlussfolgerungen führen können, geht wiederum auf die T- Test-Statistik für einen unabhängigen T-Test bei zwei Stichproben zurück:

Teststatistik t = [ ( x 1x 2 ) – d ] / (√ s 2 1 / n 1 + s 2 2 / n 2 )

Beachten Sie, dass der ganzzahlige Nenner der t -Test-Statistik klein ist, wenn n 1 und n 2 klein sind. Und wenn man durch eine kleine Zahl dividiert, erhält man eine große Zahl. Dies bedeutet, dass die t- Test-Statistik groß und der entsprechende p-Wert klein ist, was zu statistisch signifikanten Ergebnissen führt.

Nutzen Sie Fachwissen, um die praktische Bedeutung einzuschätzen

Um festzustellen, ob ein statistisch signifikantes Ergebnis eines Hypothesentests praktisch aussagekräftig ist, sind häufig Fachkenntnisse erforderlich.

In den vorherigen Beispielen, als wir Unterschiede zwischen den Testergebnissen zweier Schulen testeten, wäre es hilfreich, das Fachwissen von jemandem zu haben, der in den Schulen arbeitet oder diese Art von Tests durchführt, um uns dabei zu helfen, festzustellen, ob ein durchschnittlicher Unterschied von 1 vorliegt Punkt existiert oder nicht. hat praktische Auswirkungen.

Beispielsweise kann eine mittlere Differenz von 1 Punkt auf der Stufe Alpha = 0,05 statistisch signifikant sein. Bedeutet das jedoch, dass die Schule mit den niedrigsten Werten das Programm übernehmen sollte, das die Schule mit den höchsten Werten höher verwendet? Oder wäre der Verwaltungsaufwand zu hoch und die Umsetzung zu kostspielig bzw. zu schnell?

Nur weil es einen statistisch signifikanten Unterschied in den Testergebnissen zwischen zwei Schulen gibt, heißt das nicht, dass die Effektgröße des Unterschieds groß genug ist, um irgendeine Art von Veränderung im Bildungssystem herbeizuführen.

Verwendung von Konfidenzintervallen zur Beurteilung der praktischen Bedeutung

Ein weiteres nützliches Instrument zur Bestimmung der praktischen Signifikanz ist das Konfidenzintervall . Ein Konfidenzintervall gibt uns einen Wertebereich an, innerhalb dessen der wahre Populationsparameter wahrscheinlich liegt.

Kehren wir zum Beispiel zum Beispiel des Vergleichs der Unterschiede in den Testergebnissen zwischen zwei Schulen zurück. Ein Schulleiter kann erklären, dass ein durchschnittlicher Punkteunterschied von mindestens 5 Punkten erforderlich ist, damit die Schule ein neues Programm einführen kann.

In einer Studie können wir sehen, dass der durchschnittliche Unterschied zwischen den Testergebnissen 8 Punkte beträgt. Das Konfidenzintervall um diesen Mittelwert kann jedoch [4, 12] betragen, was darauf hindeutet, dass 4 der wahre Unterschied zwischen den durchschnittlichen Testergebnissen sein könnte. In diesem Fall kann der Schulleiter daraus schließen, dass die Schule das Programm nicht ändern wird, da das Konfidenzintervall darauf hindeutet, dass der tatsächliche Unterschied weniger als 5 betragen könnte.

In einer anderen Studie können wir jedoch sehen, dass die durchschnittliche Differenz zwischen den Testergebnissen wiederum 8 Punkte beträgt, das Konfidenzintervall um den Durchschnitt jedoch betragen kann [6, 10]. Da dieses Intervall nicht 5 enthält, wird der Direktor wahrscheinlich zu dem Schluss kommen, dass der tatsächliche Unterschied zwischen den Testergebnissen größer als 5 ist, und somit entscheiden, dass es sinnvoll ist, das Programm zu ändern.

Abschluss

Zusammenfassend haben wir Folgendes gelernt:

  • Die rein statistische Signifikanz gibt an, ob ein Effekt auf Basis eines bestimmten Signifikanzniveaus vorliegt.
  • Die praktische Bedeutung besteht darin, ob dieser Effekt praktische Auswirkungen auf die reale Welt hat oder nicht.
  • Wir verwenden statistische Analysen zur Bestimmung der statistischen Signifikanz und Domänenexpertise zur Beurteilung der praktischen Signifikanz.
  • Kleine Effektgrößen können zu kleinen p-Werten führen, wenn (1) die Variabilität der Stichprobendaten sehr gering ist und wenn (2) die Stichprobengröße sehr groß ist.
  • Indem wir vor der Durchführung eines Hypothesentests eine Mindesteffektgröße festlegen, können wir besser beurteilen, ob das Ergebnis eines Hypothesentests (auch wenn es statistisch signifikant ist) in der realen Welt tatsächlich praktisch ist.
  • Konfidenzintervalle können bei der Bestimmung der praktischen Signifikanz hilfreich sein. Wenn die minimale Effektgröße nicht innerhalb eines Konfidenzintervalls liegt, können die Ergebnisse praktisch signifikant sein.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert