Hoe de goldfeld-quandt-test uit te voeren in r
De Goldfeld-Quandt-test wordt gebruikt om te bepalen of heteroskedasticiteit aanwezig is in een regressiemodel.
Heteroskedasticiteit verwijst naar de ongelijke spreiding van residuen op verschillende niveaus van eenresponsvariabele in een regressiemodel.
Als er heteroscedasticiteit aanwezig is, schendt dit een van de belangrijkste aannames van lineaire regressie , namelijk dat de residuen gelijkmatig verspreid zijn op elk niveau van de responsvariabele.
Deze tutorial biedt een stapsgewijs voorbeeld van hoe u de Goldfeld-Quandt-test in R kunt uitvoeren om te bepalen of heteroscedasticiteit al dan niet aanwezig is in een bepaald regressiemodel.
Stap 1: Maak een regressiemodel
Eerst zullen we een meervoudig lineair regressiemodel maken met behulp van de mtcars- dataset die in R is ingebouwd:
#fit a regression model model <- lm(mpg~disp+hp, data=mtcars) #view model summary summary(model) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 30.735904 1.331566 23.083 < 2nd-16 *** available -0.030346 0.007405 -4.098 0.000306 *** hp -0.024840 0.013385 -1.856 0.073679 . --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 3.127 on 29 degrees of freedom Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09
Stap 2: Voer de Goldfeld-Quandt-test uit
Vervolgens zullen we de functie gqtest() uit het lmtest- pakket gebruiken om de Goldfeld-Quandt-test uit te voeren om te bepalen of heteroscedasticiteit aanwezig is.
Deze functie gebruikt de volgende syntaxis:
gqtest(model, order.by, data, breuk)
Goud:
- model: het lineaire regressiemodel gemaakt door de opdracht lm().
- order.by: de voorspellende variabele(n) van het model.
- gegevens: de naam van de gegevensset.
- fractie*: aantal centrale waarnemingen dat uit de dataset moet worden verwijderd.
*De Goldfeld-Quandt-test werkt door een aantal waarnemingen in het midden van de dataset te verwijderen en vervolgens te testen om te zien of de verdeling van de residuen verschilt van de twee resulterende datasets die aan weerszijden van de datasets liggen. centrale observaties.
Meestal kiezen we ervoor om ongeveer 20% van de totale waarnemingen te verwijderen. In dit geval heeft mtcars in totaal 32 observaties, dus we kunnen ervoor kiezen om de centrale 7 observaties te verwijderen:
#load lmtest library library(lmtest) #perform the Goldfeld Quandt test gqtest(model, order.by = ~disp+hp, data = mtcars, fraction = 7) Goldfeld-Quandt test data: model GQ = 1.0316, df1 = 10, df2 = 9, p-value = 0.486 alternative hypothesis: variance increases from segment 1 to 2
Zo interpreteert u het resultaat:
- De teststatistiek is 1,0316 .
- De overeenkomstige p-waarde is 0,486 .
De Goldfeld-Quandt-test gebruikt de volgende nul- en alternatieve hypothesen:
- Nul (H 0 ) : Homoskedasticiteit is aanwezig.
- Alternatief ( HA ): Er is heteroskedasticiteit aanwezig.
Omdat de p-waarde niet kleiner is dan 0,05, slagen we er niet in de nulhypothese te verwerpen. We hebben niet voldoende bewijs om te beweren dat heteroskedasticiteit aanwezig is in het regressiemodel.
Wat nu te doen
Als u er niet in slaagt de nulhypothese van de Goldfeld-Quandt-test te verwerpen, is er geen sprake van heteroskedasticiteit en kunt u doorgaan met het interpreteren van het resultaat van de oorspronkelijke regressie.
Als u echter de nulhypothese verwerpt, betekent dit dat er heteroskedasticiteit aanwezig is in de gegevens. In dit geval zijn de standaardfouten die in de regressie-uitvoertabel worden weergegeven mogelijk onbetrouwbaar.
Er zijn verschillende veelvoorkomende manieren om dit probleem op te lossen, waaronder:
1. Transformeer de responsvariabele.
U kunt proberen een transformatie uit te voeren op de responsvariabele, bijvoorbeeld door de log-, vierkantswortel of derdemachtswortel van de responsvariabele te nemen. Over het algemeen kan dit ertoe leiden dat heteroscedasticiteit verdwijnt.
2. Gebruik gewogen regressie.
Gewogen regressie kent een gewicht toe aan elk gegevenspunt op basis van de variantie van de aangepaste waarde. In wezen geeft dit een laag gewicht aan datapunten met grotere varianties, waardoor hun resterende kwadraten kleiner worden.
Wanneer de juiste gewichten worden gebruikt, kan gewogen regressie het probleem van heteroscedasticiteit elimineren.
Aanvullende bronnen
Hoe meervoudige lineaire regressie uit te voeren in R
Hoe de test van White uit te voeren in R
Hoe voer je een Breusch-Pagan-test uit in R