Wat is de dummy-variabeleval? (definitie & #038; voorbeeld)
Lineaire regressie is een methode die we kunnen gebruiken om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te kwantificeren.
Over het algemeen gebruiken we lineaire regressie met kwantitatieve variabelen . Dit worden ook wel ‘numerieke’ variabelen genoemd. Dit zijn variabelen die een meetbare hoeveelheid vertegenwoordigen. Voorbeelden zijn onder meer:
- Aantal vierkante meter in een huis
- Bevolkingsomvang van een stad
- Leeftijd van een individu
Soms willen we echter categorische variabelen gebruiken als voorspellende variabelen. Dit zijn variabelen die namen of labels aannemen en in categorieën kunnen vallen. Voorbeelden zijn onder meer:
- Oogkleur (bijvoorbeeld “blauw”, “groen”, “bruin”)
- Geslacht (bijvoorbeeld “man”, “vrouw”)
- Burgerlijke staat (bijvoorbeeld ‘getrouwd’, ‘single’, ‘gescheiden’)
Bij het gebruik van categorische variabelen heeft het geen zin om zomaar waarden als 1, 2, 3 toe te wijzen aan waarden als ‘blauw’, ‘groen’ en ‘bruin’, omdat het geen zin heeft om te zeggen dat groen is dubbel. zo kleurrijk als blauw of bruin is drie keer kleurrijker dan blauw.
In plaats daarvan is de oplossing het gebruik van dummyvariabelen . Dit zijn variabelen die we speciaal voor regressieanalyse maken en die een van de twee waarden kunnen aannemen: nul of één.
Het aantal dummyvariabelen dat we moeten creëren is gelijk aan k -1 waarbij k het aantal verschillende waarden is dat de categorische variabele kan aannemen.
Stel dat we de volgende gegevensset hebben en de burgerlijke staat en leeftijd willen gebruiken om het inkomen te voorspellen:
Om de burgerlijke staat als voorspellende variabele in een regressiemodel te gebruiken, moeten we deze omzetten in een dummyvariabele.
Omdat dit momenteel een categorische variabele is die drie verschillende waarden kan aannemen („Single“, „Married“ of „Divorced“), moeten we k -1 = 3-1 = 2 dummyvariabelen maken.
Om deze dummyvariabele te maken, kunnen we ‚Single‘ als basiswaarde laten staan, aangezien deze het vaakst voorkomt. Dus hier is hoe we de burgerlijke staat zouden omzetten in dummyvariabelen:
We zouden dan Leeftijd , Getrouwd en Gescheiden kunnen gebruiken als voorspellende variabelen in een regressiemodel.
Bij het maken van dummyvariabelen kan een probleem optreden dat bekend staat als een dummyvariabelenval . Dit gebeurt wanneer we k dummyvariabelen maken in plaats van k -1 dummyvariabelen.
Wanneer dit gebeurt, zullen ten minste twee van de dummyvariabelen last hebben van perfecte multicollineariteit . Met andere woorden, ze zullen perfect gecorreleerd zijn. Dit resulteert in onjuiste berekeningen van regressiecoëfficiënten en de bijbehorende p-waarden.
Dummyvariabelenval: Wanneer het aantal gecreëerde dummyvariabelen gelijk is aan het aantal waarden dat de categorische waarde kan aannemen. Dit leidt tot multicollineariteit, wat resulteert in onjuiste berekeningen van regressiecoëfficiënten en p-waarden.
Stel dat we de burgerlijke staat omzetten in de volgende dummyvariabelen:
In dit geval zijn alleenstaand en getrouwd perfect gecorreleerd en hebben ze een correlatiecoëfficiënt van -1.
Dus als we meervoudige lineaire regressie uitvoeren, zullen de berekeningen van de regressiecoëfficiënt onjuist zijn.
Hoe de dummy-variabele val te vermijden
U hoeft slechts één regel te onthouden om de valkuil van dummyvariabelen te vermijden:
Als een categorische variabele k verschillende waarden kan aannemen, moet u alleen k-1 dummyvariabelen maken om in het regressiemodel te gebruiken.
Stel dat u bijvoorbeeld een categorische variabele ’schooljaar‘ wilt omzetten in dummyvariabelen. Stel dat deze variabele de volgende waarden aanneemt:
- Eerstejaarsstudent
- Tweedejaars student
- Junior
- Senior
Omdat deze variabele vier verschillende waarden kan aannemen, maken we slechts drie dummyvariabelen aan. Onze dummyvariabelen kunnen bijvoorbeeld zijn:
- X 1 = 1 indien tweedejaars student; 0 anders
- X 2 = 1 indien junior; 0 anders
- X 3 = 1 taxus Senior; 0 anders
Omdat het aantal dummyvariabelen één minder is dan het aantal waarden dat ‘schooljaar’ kan aannemen, kunnen we de dummyvariabelenval en het multicollineariteitsprobleem vermijden.
Aanvullende bronnen
Hoe dummyvariabelen te gebruiken in regressieanalyse
Inleiding tot meervoudige lineaire regressie
Een gids voor multicollineariteit bij regressie