Een schaal- en locatieplot interpreteren: met voorbeelden
Een geschaald locatiediagram is een type diagram dat de aangepaste waarden van een regressiemodel langs de x-as en de vierkantswortel van de gestandaardiseerde residuen langs de y-as weergeeft.
Als we naar deze grafiek kijken, controleren we twee dingen:
1. Controleer of de rode lijn ongeveer horizontaal op de plot ligt. Als dit het geval is, is voor een bepaald regressiemodel waarschijnlijk voldaan aan de aanname van homoscedasticiteit . Dat wil zeggen dat de verdeling van de residuen ongeveer gelijk is voor alle gefitte waarden.
2. Controleer of er geen duidelijke trend is tussen de residuen. Met andere woorden: de residuen moeten willekeurig rond de rode lijn worden verspreid met ongeveer gelijke variabiliteit voor alle aangepaste waarden.
Schaal- en locatieplots in R
We kunnen de volgende code gebruiken om een eenvoudig lineair regressiemodel in R te passen en een schaal- en locatieplot voor het resulterende model te maken:
#fit simple linear regression model model <- lm(Ozone ~ Temp, data = airquality) #produce scale-location plot plot(model)
We kunnen de volgende twee dingen waarnemen op basis van de schaallocatiegrafiek van dit regressiemodel.
1. De rode lijn ligt ongeveer horizontaal op het perceel. Als dit het geval is, wordt voor een gegeven regressiemodel voldaan aan de aanname van homoscedasticiteit . Dat wil zeggen dat de verdeling van de residuen ongeveer gelijk is voor alle gefitte waarden.
2. Controleer of er geen duidelijke trend is tussen de residuen. Met andere woorden: de residuen moeten willekeurig rond de rode lijn worden verspreid met ongeveer gelijke variabiliteit voor alle aangepaste waarden.
Technische opmerkingen
De drie waarnemingen uit de dataset met de hoogste gestandaardiseerde residuen zijn in de grafiek gelabeld.
We kunnen zien dat waarnemingen in regels 30, 62 en 117 de hoogste gestandaardiseerde residuen hebben.
Dit betekent niet noodzakelijkerwijs dat deze waarnemingen uitschieters zijn, maar wellicht wilt u de oorspronkelijke gegevens bekijken om deze waarnemingen nader te onderzoeken.
Hoewel we kunnen zien dat de rode lijn ruwweg horizontaal ligt op de schaallocatieplot, dient dit alleen als een visuele manier om te zien of aan de aanname van homoscedasticiteit is voldaan.
Een formele statistische test die we kunnen gebruiken om te zien of aan de aanname van homoscedasticiteit is voldaan, is de Breusch-Pagan-test .
Breusch-Pagan-test in R
De volgende code laat zien hoe u de functie bptest() van het lmtest- pakket gebruikt om een Breusch-Pagan-test uit te voeren in R:
#load lmtest package library(lmtest) #perform Breusch-Pagan Test bptest(model) studentized Breusch-Pagan test data: model BP = 1.4798, df = 1, p-value = 0.2238
Een Breusch-Pagan-test gebruikt de volgende nul- en alternatieve hypothesen:
- Nulhypothese (H 0 ): de residuen zijn homoscedastisch (dat wil zeggen uniform verdeeld)
- Alternatieve hypothese ( HA ): De residuen zijn heteroskedastisch (dwz niet uniform verdeeld)
Uit het resultaat kunnen we zien dat de p-waarde van de test 0,2238 is. Omdat deze p-waarde niet kleiner is dan 0,05, slagen we er niet in de nulhypothese te verwerpen. We hebben niet voldoende bewijs om te beweren dat heteroskedasticiteit aanwezig is in het regressiemodel.
Dit resultaat komt overeen met onze visuele inspectie van de rode lijn in de schaallocatieplot.
Aanvullende bronnen
Heteroscedasticiteit begrijpen in regressieanalyse
Hoe maak je een restplot in R
Hoe voer je een Breusch-Pagan-test uit in R