Was ist ein partieller f-test?
Mithilfe eines partiellen F-Tests wird ermittelt, ob ein statistisch signifikanter Unterschied zwischen einem Regressionsmodell und einer verschachtelten Version desselben Modells besteht.
Ein verschachteltes Modell ist einfach ein Modell, das eine Teilmenge von Prädiktorvariablen im gesamten Regressionsmodell enthält.
Angenommen, wir haben das folgende Regressionsmodell mit vier Prädiktorvariablen:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Ein Beispiel für ein verschachteltes Modell wäre das folgende Modell mit nur zwei der ursprünglichen Prädiktorvariablen:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Um festzustellen, ob sich diese beiden Modelle signifikant unterscheiden, können wir einen partiellen F-Test durchführen.
Teil-F-Test: die Grundlagen
Ein partieller F-Test berechnet die folgende F-Test-Statistik:
F = (( Reduzierter RSS – Vollständiger RSS)/p) / ( Vollständiger RSS /nk)
Gold:
- Reduzierter RSS : Die verbleibende Quadratsumme des reduzierten (dh „verschachtelten“) Modells.
- RSS full : Die verbleibende Quadratsumme des vollständigen Modells.
- p: Anzahl der aus dem vollständigen Modell entfernten Prädiktoren.
- n: die Gesamtzahl der Beobachtungen im Datensatz.
- k: Die Anzahl der Koeffizienten (einschließlich des Achsenabschnitts) im vollständigen Modell.
Beachten Sie, dass die Restquadratsumme für das Gesamtmodell immer kleiner sein wird, da das Hinzufügen von Prädiktoren immer zu einer gewissen Fehlerreduzierung führt.
Ein partieller F-Test testet also im Wesentlichen, ob die Gruppe von Prädiktoren, die Sie aus dem Gesamtmodell entfernt haben, tatsächlich nützlich ist und in das Gesamtmodell einbezogen werden sollte.
Dieser Test verwendet die folgenden Null- und Alternativhypothesen:
H 0 : Alle aus dem vollständigen Modell entfernten Koeffizienten sind Null.
H A : Mindestens einer der aus dem vollständigen Modell entfernten Koeffizienten ist ungleich Null.
Wenn der der F-Test-Statistik entsprechende p-Wert unter einem bestimmten Signifikanzniveau (z. B. 0,05) liegt, können wir die Nullhypothese ablehnen und daraus schließen, dass mindestens einer der aus dem vollständigen Modell entfernten Koeffizienten signifikant ist.
Teil-F-Test: ein Beispiel
In der Praxis verwenden wir die folgenden Schritte, um einen partiellen F-Test durchzuführen:
1. Passen Sie das vollständige Regressionsmodell an und berechnen Sie RSS full .
2. Passen Sie das verschachtelte Regressionsmodell an und berechnen Sie den reduzierten RSS.
3. Führen Sie eine ANOVA durch, um das vollständige und das reduzierte Modell zu vergleichen. Dadurch wird die F-Test-Statistik erstellt, die zum Vergleich der Modelle erforderlich ist.
Der folgende Code zeigt beispielsweise, wie die folgenden zwei Regressionsmodelle in R mithilfe von Daten aus dem integrierten mtcars -Datensatz angepasst werden:
Vollständiges Modell: mpg = β 0 + β 1 verfügbar + β 2 Vergaser + β 3 PS + β 4 Zyl
Modell: mpg = β 0 + β 1 verfügbar + β 2 Kohlenhydrate
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
Aus dem Ergebnis können wir ersehen, dass die F-Teststatistik der ANOVA 0,9113 und der entsprechende p-Wert 0,414 beträgt.
Da dieser p-Wert nicht kleiner als 0,05 ist, können wir die Nullhypothese nicht ablehnen. Das bedeutet, dass wir nicht über genügend Beweise verfügen, um zu sagen, dass eine der Prädiktorvariablen hp oder cyl statistisch signifikant ist.
Mit anderen Worten: Das Hinzufügen von hp und cyl zum Regressionsmodell verbessert die Modellanpassung nicht wesentlich.