Weggelaten variabele bias: definitie en voorbeelden
Vertekening van weggelaten variabelen treedt op wanneer een relevante verklarende variabele niet is opgenomen in eenregressiemodel , wat kan resulteren in een vertekening van de coëfficiënt van een of meer verklarende variabelen in het model.
Een weggelaten variabele wordt vaak om een van de volgende twee redenen uitgesloten van een regressiemodel:
1. Gegevens voor de variabele zijn eenvoudigweg niet beschikbaar.
2. Het effect van de verklarende variabele op de responsvariabele is onbekend.
Om ervoor te zorgen dat de weggelaten variabele de modelcoëfficiënten daadwerkelijk vervormt, moet aan de volgende twee voorwaarden worden voldaan:
1. De weggelaten variabele moet gecorreleerd zijn met een of meer verklarende variabelen in het model.
2. De weggelaten variabele moet gecorreleerd zijn met de responsvariabele in het model.
De effecten van weggelaten variabele bias
Stel dat we twee verklarende variabelen hebben, A en B, en een responsvariabele, Y. Stel dat we een eenvoudig lineair regressiemodel passen met A als de enige verklarende variabele en B buiten het model laten.
Als B gecorreleerd is met A en gecorreleerd is met Y, zal dit resulteren in een vertekening in de schatting van de coëfficiënt van A. Het volgende diagram laat zien hoe de schatting van de coëfficiënt van A vertekend zal zijn, afhankelijk van de aard van de relatie met B:
Voorbeeld: weggelaten variabele bias
Stel dat we het effect van vierkante meters op de vastgoedprijs willen bestuderen en daarom het volgende eenvoudige lineaire regressiemodel toepassen:
Huizenprijs = B 0 + B 1 (vierkante oppervlakte)
Stel dat we vinden dat het geschatte model:
Huizenprijs = 40.203,91 + 118,31 (vierkante oppervlakte)
De manier waarop we de coëfficiënt voor vierkante meters interpreteren, is dat elke extra toename van één eenheid in vierkante meters gepaard gaat met een stijging van de huizenprijs van gemiddeld $ 118,31.
Stel echter dat we de verklarende variabele leeftijd weglaten, die sterk negatief gecorreleerd blijkt te zijn met vierkante meters en sterk negatief gecorreleerd met de prijs van onroerend goed. Deze variabele zou in het model moeten voorkomen, maar dat is niet het geval. De schatting van de coëfficiënten voor vierkante meters is dus waarschijnlijk vertekend.
Omdat leeftijd negatief gecorreleerd is met zowel de verklarende als de responsvariabele in het model, verwachten we dat de schatting van de coëfficiënten voor vierkante meters positief vertekend is:
Stel dat we gegevens vinden over de ouderdom van de woning en deze vervolgens opnemen in het model. Het model wordt dan:
Huizenprijs = B 0 + B 1 (vierkante oppervlakte) + B 2 (leeftijd)
Stel dat we vinden dat het geschatte model:
Huizenprijs = 123.426,20 + 81,06 (vierkante oppervlakte) – 1.291,04 (leeftijd)
Houd er rekening mee dat de schatting van de coëfficiënten voor vierkante meters aanzienlijk is afgenomen, wat betekent dat deze in het vorige model positief vertekend was .
De manier waarop we de vierkante meterscoëfficiënt in dit model interpreteren is dat elke extra toename van één eenheid vierkante meters gepaard gaat met een gemiddelde stijging van de huizenprijs van €81,06, ervan uitgaande dat de leeftijd constant blijft.
Wat te doen tegen de bias van weggelaten variabelen
Helaas komt vertekening van weggelaten variabelen in de echte wereld vaak voor omdat bepaalde variabelen over het algemeen in een regressiemodel zouden moeten worden opgenomen, maar dat niet gebeurt omdat de gegevens daarvoor niet beschikbaar zijn of omdat de relatie tussen deze variabelen en de responsvariabele onbekend is.
Indien mogelijk moet u proberen alle relevante verklarende variabelen in een regressiemodel op te nemen, zodat u de werkelijke relatie tussen de verklarende variabelen en de responsvariabele kunt begrijpen.
Het uitsluiten van relevante verklarende variabelen uit een model kan de interpretatie van het model aanzienlijk beïnvloeden, zoals we in het vorige voorbeeld bij vastgoedprijzen hebben gezien.
Aanvullende bronnen
Wat is een verborgen variabele?
Wat is een verwarrende variabele?