Eine einfache anleitung zum verständnis des f-tests der gesamtsignifikanz in der regression
In diesem Tutorial wird erläutert, wie Sie die F-Statistik in der Ausgabe einer Regressionstabelle identifizieren und wie Sie diese Statistik und ihren entsprechenden p-Wert interpretieren.
Den Gesamtsignifikanz-F-Test verstehen
Der F-Test für die Gesamtsignifikanz bei der Regression ist ein Test, um festzustellen, ob Ihr lineares Regressionsmodell besser zu einem Datensatz passt als ein Modell ohne Prädiktorvariablen.
Der Gesamtsignifikanz-F-Test basiert auf den folgenden zwei Annahmen:
Nullhypothese ( H0 ): Das Modell ohne Prädiktorvariablen (auch Intercept-Only-Modell genannt) passt sowohl zu den Daten als auch zu Ihrem Regressionsmodell.
Alternativhypothese ( HA ): Ihr Regressionsmodell passt besser zu den Daten als das Nur-Intercept-Modell.
Wenn Sie ein Regressionsmodell an einen Datensatz anpassen, erhalten Sie als Ausgabe eine Regressionstabelle , die Ihnen die F-Statistik zusammen mit dem entsprechenden p-Wert für diese F-Statistik angibt.
Wenn der p-Wert kleiner als das von Ihnen gewählte Signifikanzniveau ist ( gängige Optionen sind 0,01, 0,05 und 0,10 ), dann verfügen Sie über ausreichende Beweise für die Schlussfolgerung, dass Ihr Regressionsmodell nur als Originalmodell zu den Daten passt. Modell.
Beispiel: F-Test in der Regression
Angenommen, wir haben den folgenden Datensatz, der die Gesamtzahl der gelernten Stunden, die Gesamtzahl der abgelegten Vorbereitungsprüfungen und die Abschlussprüfungsnote für 12 verschiedene Studenten zeigt:
Um den Zusammenhang zwischen den gelernten Stunden und den absolvierten Vorbereitungsprüfungen mit der Abschlussprüfungsnote eines Studierenden zu analysieren , führen wir eine multiple lineare Regression durch, wobei wir die gelernten Stunden und die absolvierten Vorbereitungsprüfungen als Prädiktorvariablen und die Abschlussnote der Prüfung als Antwortvariable verwenden.
Wir erhalten folgendes Ergebnis:
Ausgehend von diesen Ergebnissen konzentrieren wir uns auf die in der ANOVA-Tabelle angegebene F-Statistik sowie auf den p-Wert dieser F-Statistik, der in der Tabelle als F-Signifikanz gekennzeichnet ist. Als Signifikanzniveau wählen wir 0,05.
F-Statistik: 5.090515
P-Wert: 0,0332
Technischer Hinweis: Die F-Statistik wird als MS-Regression dividiert durch das MS-Residuum berechnet. In diesem Fall ist MS-Regression / MS-Residuum = 273,2665 / 53,68151 = 5,090515 .
Da der p-Wert unter dem Signifikanzniveau liegt, können wir daraus schließen, dass unser Regressionsmodell besser zu den Daten passt als das Nur-Intercept-Modell.
Im Kontext dieses spezifischen Problems bedeutet dies, dass wir durch die Verwendung unserer Prädiktorvariablen für Studienstunden und Vorbereitungsprüfungen im Modell die Daten besser anpassen können, als wenn wir sie weggelassen und einfach nur das Intercept-Modell verwendet hätten.
Hinweise zur Interpretation des F-Tests der Gesamtsignifikanz
Wenn keine Ihrer Prädiktorvariablen statistisch signifikant ist, ist im Allgemeinen auch der gesamte F-Test statistisch nicht signifikant.
Dies ist jedoch in einigen Fällen möglicherweise nicht der Fall, da der F-Test für die Gesamtsignifikanz testet, ob alle Prädiktorvariablen gemeinsam signifikant sind, während der T-Test für die Signifikanz für jede einzelne Prädiktorvariable einfach testet, ob jede Vorhersagevariable signifikant ist. individuell bedeutsam.
Somit bestimmt der F-Test, ob alle Prädiktorvariablen gemeinsam signifikant sind oder nicht.
Es ist möglich, dass nicht jede Prädiktorvariable signifikant ist, der F-Test jedoch zeigt, dass alle Prädiktorvariablen zusammengenommen signifikant sind.
Technischer Hinweis: Generell gilt: Je mehr Prädiktorvariablen Sie im Modell haben, desto höher ist die Wahrscheinlichkeit, dass die F-Statistik und der entsprechende p-Wert statistisch signifikant sind.
Eine weitere Metrik, die Sie wahrscheinlich in der Ausgabe einer Regression sehen werden, ist das R-Quadrat , das die Stärke der linearen Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen misst.
Obwohl das R-Quadrat Ihnen eine Vorstellung davon geben kann, inwieweit die Prädiktorvariablen stark mit der Antwortvariablen verknüpft sind, bietet es keinen formalen statistischen Test für diese Beziehung.
Aus diesem Grund ist der F-Test nützlich, da es sich um einen formalen statistischen Test handelt. Wenn der Gesamt-F-Test außerdem signifikant ist, können Sie daraus schließen, dass das R-Quadrat nicht Null ist und dass die Korrelation zwischen der/den Prädiktorvariablen(n) und der Antwortvariablen statistisch signifikant ist.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Werte in Regressionsmodellen interpretiert werden:
So lesen und interpretieren Sie eine Regressionstabelle
Den Standardfehler der Regression verstehen
Was ist ein guter R-Quadrat-Wert?