Wat is een gedeeltelijke f-test?
Om te bepalen of er al dan niet een statistisch significant verschil bestaat tussen een regressiemodel en een geneste versie van hetzelfde model, wordt een gedeeltelijke F-test gebruikt.
Een genest model is eenvoudigweg een model dat een subset van voorspellende variabelen in het algehele regressiemodel bevat.
Stel dat we bijvoorbeeld het volgende regressiemodel hebben met vier voorspellende variabelen:
Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + ε
Een voorbeeld van een genest model is het volgende model met slechts twee van de oorspronkelijke voorspellende variabelen:
Y = β 0 + β 1 x 1 + β 2 x 2 + ε
Om te bepalen of deze twee modellen significant van elkaar verschillen, kunnen we een gedeeltelijke F-test uitvoeren.
Gedeeltelijke F-test: de basis
Een gedeeltelijke F-test berekent de volgende F-teststatistiek:
F = (( Verminderde RSS – Volledige RSS)/p) / ( Volledige RSS /nk)
Goud:
- Gereduceerde RSS : de resterende kwadratensom van het gereduceerde (dwz “geneste”) model.
- RSS full : De resterende kwadratensom van het volledige model.
- p: aantal voorspellers verwijderd uit het volledige model.
- n: het totale aantal waarnemingen in de dataset.
- k: Het aantal coëfficiënten (inclusief het snijpunt) in het volledige model.
Merk op dat de resterende kwadratensom altijd kleiner zal zijn voor het volledige model, aangezien het toevoegen van voorspellers altijd zal resulteren in enige vermindering van de fouten.
Een gedeeltelijke F-test test dus feitelijk of de groep voorspellers die u uit het volledige model hebt verwijderd, daadwerkelijk nuttig is en in het volledige model moet worden opgenomen.
Deze test maakt gebruik van de volgende nul- en alternatieve hypothesen:
H 0 : Alle uit het volledige model verwijderde coëfficiënten zijn nul.
H A : Ten minste één van de uit het volledige model verwijderde coëfficiënten is niet nul.
Als de p-waarde die overeenkomt met de F-toetsstatistiek onder een bepaald significantieniveau ligt (bijvoorbeeld 0,05), dan kunnen we de nulhypothese verwerpen en concluderen dat ten minste één van de uit het volledige model verwijderde coëfficiënten significant is.
Gedeeltelijke F-test: een voorbeeld
In de praktijk gebruiken we de volgende stappen om een gedeeltelijke F-test uit te voeren:
1. Pas het volledige regressiemodel aan en bereken RSS full .
2. Pas het geneste regressiemodel aan en bereken de verminderde RSS.
3. Voer een ANOVA uit om het volledige en het beperkte model te vergelijken, wat de F-teststatistiek oplevert die nodig is om de modellen te vergelijken.
De volgende code laat bijvoorbeeld zien hoe u de volgende twee regressiemodellen in R kunt passen met behulp van gegevens uit de ingebouwde mtcars- gegevensset:
Volledig model: mpg = β 0 + β 1 beschikbaar + β 2 carb + β 3 pk + β 4 cil
Model: mpg = β 0 + β 1 beschikbaar + β 2 carb
#fit full model model_full <- lm(mpg ~ disp + carb + hp + cyl, data = mtcars) #fit reduced model model_reduced <- lm(mpg ~ disp + carb, data = mtcars) #perform ANOVA to test for differences in models anova(model_reduced, model_full) Analysis of Variance Table Model 1: mpg ~ available + carb Model 2: mpg ~ disp + carb + hp + cyl Res.Df RSS Df Sum of Sq F Pr(>F) 1 29 254.82 2 27 238.71 2 16.113 0.9113 0.414
Uit het resultaat kunnen we zien dat de F-teststatistiek van ANOVA 0,9113 is en de overeenkomstige p-waarde 0,414 .
Omdat deze p-waarde niet kleiner is dan 0,05, zullen we er niet in slagen de nulhypothese te verwerpen. Dit betekent dat we niet genoeg bewijs hebben om te zeggen dat de voorspellende variabelen voor pk of cilinderinhoud statistisch significant zijn.
Met andere woorden: het toevoegen van hp en cil aan het regressiemodel verbetert de modelfit niet significant.