Heteroscedasticiteit begrijpen in regressieanalyse
Bij regressieanalyse verwijst heteroskedasticiteit (soms gespeld als heteroskedasticiteit) naar de ongelijke spreiding van residuen of fouttermen. Meer precies is dit het geval wanneer er een systematische verandering optreedt in de verdeling van de residuen over het bereik van de gemeten waarden.
Heteroskedasticiteit is een probleem omdat de gewone kleinste kwadratenregressie (OLS) ervan uitgaat dat de residuen afkomstig zijn uit een populatie met homoscedasticiteit , wat constante variantie betekent.
Wanneer heteroscedasticiteit aanwezig is in een regressieanalyse, worden de resultaten van de analyse moeilijk te geloven. Concreet vergroot heteroskedasticiteit de variantie van de schattingen van de regressiecoëfficiënten, maar het regressiemodel houdt daar geen rekening mee.
Dit maakt het veel waarschijnlijker dat een regressiemodel zal beweren dat een term in het model statistisch significant is, terwijl dit in werkelijkheid niet het geval is.
In deze tutorial wordt uitgelegd hoe u heteroscedasticiteit kunt detecteren, wat de oorzaken van heteroscedasticiteit zijn en hoe u het heteroscedasticiteitsprobleem kunt oplossen.
Hoe heteroscedasticiteit te detecteren
De eenvoudigste manier om heteroskedasticiteit te detecteren is door gebruik te maken van een gepaste waarde/residuele plot .
Zodra u een regressielijn aan een gegevensset heeft aangepast, kunt u een spreidingsdiagram maken waarin de aangepaste waarden van het model worden weergegeven ten opzichte van de residuen van die aangepaste waarden.
Het onderstaande spreidingsdiagram toont een typisch diagram van de gepaste waarde versus het residu waarin heteroscedasticiteit aanwezig is.
Merk op hoe de residuen zich steeds meer verspreiden naarmate de aangepaste waarden toenemen. Deze “kegelvorm” is een veelbetekenend teken van heteroscedasticiteit.
Wat zijn de oorzaken van heteroscedasticiteit?
Heteroscedasticiteit komt van nature voor in datasets met een breed scala aan waargenomen datawaarden. Bijvoorbeeld:
- Beschouw een dataset met de jaarlijkse inkomsten en uitgaven van 100.000 mensen in de Verenigde Staten. Voor mensen met lagere inkomens zal de variabiliteit van de overeenkomstige uitgaven kleiner zijn, omdat deze mensen waarschijnlijk alleen genoeg geld zullen hebben om in hun levensbehoeften te voorzien. Voor individuen met hogere inkomens zal er een grotere variabiliteit zijn in de overeenkomstige uitgaven, aangezien deze individuen meer geld te besteden zullen hebben als ze dat willen. Sommige mensen met hogere inkomens zullen ervoor kiezen het grootste deel van hun inkomen uit te geven, terwijl anderen ervoor kiezen om zuinig te zijn en slechts een deel uit te geven. Daarom zal de variabiliteit van de uitgaven onder deze individuen met een hoger inkomen inherent groter zijn.
- Beschouw een dataset met de populaties en het aantal bloemisten in 1000 verschillende steden in de Verenigde Staten. In dunbevolkte steden kan het gebruikelijk zijn dat er slechts één of twee bloemisten aanwezig zijn. Maar in dichter bevolkte steden zal het aantal bloemisten veel variabeler zijn. Deze steden kunnen tussen de 10 en 100 winkels hebben. Dit betekent dat wanneer we een regressieanalyse maken en de bevolking gebruiken om het aantal bloemisten te voorspellen, er inherent een grotere variabiliteit in de residuen zal zijn voor dichter bevolkte steden.
Sommige datasets zijn simpelweg gevoeliger voor heteroskedasticiteit dan andere.
Hoe heteroscedasticiteit te verhelpen
Er zijn drie veelgebruikte manieren om heteroskedasticiteit te corrigeren:
1. Transformeer de afhankelijke variabele
Eén manier om te corrigeren voor heteroskedasticiteit is door de afhankelijke variabele op de een of andere manier te transformeren. Een gebruikelijke transformatie is om eenvoudigweg de log van de afhankelijke variabele te nemen.
Als we bijvoorbeeld de bevolkingsomvang (onafhankelijke variabele) gebruiken om het aantal bloemisten in een stad te voorspellen (afhankelijke variabele), kunnen we in plaats daarvan proberen de bevolkingsomvang te gebruiken om de logaritme van het aantal bloemisten in een stad te voorspellen.
Het gebruik van de log van de afhankelijke variabele, in plaats van de oorspronkelijke afhankelijke variabele, resulteert vaak in het verdwijnen van heteroscedasticiteit.
2. Definieer de afhankelijke variabele opnieuw
Een andere manier om heteroskedasticiteit te corrigeren is door de afhankelijke variabele opnieuw te definiëren. Een gebruikelijke manier om dit te doen is door een tarief te gebruiken voor de afhankelijke variabele, in plaats van de ruwe waarde.
In plaats van de bevolkingsomvang te gebruiken om het aantal bloemisten in een stad te voorspellen, kunnen we bijvoorbeeld de bevolkingsomvang gebruiken om het aantal bloemisten per hoofd van de bevolking te voorspellen.
In de meeste gevallen vermindert dit de variabiliteit die van nature voorkomt binnen grotere populaties, omdat we het aantal bloemisten per persoon meten, in plaats van het aantal bloemisten zelf.
3. Gebruik gewogen regressie
Een andere manier om te corrigeren voor heteroskedasticiteit is het gebruik van gewogen regressie. Dit type regressie kent een gewicht toe aan elk gegevenspunt op basis van de variantie van de aangepaste waarde.
In wezen geeft dit een laag gewicht aan datapunten met hogere varianties, waardoor hun resterende kwadraten kleiner worden. Wanneer de juiste gewichten worden gebruikt, kan dit het probleem van heteroskedasticiteit elimineren.
Conclusie
Heteroscedasticiteit is een vrij algemeen probleem als het gaat om regressieanalyse, aangezien veel datasets inherent onderhevig zijn aan niet-constante variantie.
Door echter een gepaste waardeplot versus een residuele plot te gebruiken, kan het vrij eenvoudig zijn om heteroscedasticiteit te ontdekken.
En door de afhankelijke variabele te transformeren, de afhankelijke variabele opnieuw te definiëren of gewogen regressie te gebruiken, kan het probleem van heteroskedasticiteit vaak worden geëlimineerd.