Multicollineariteit
In dit artikel wordt uitgelegd wat multicollineariteit in de statistiek is. U zult dus ontdekken wanneer multicollineariteit bestaat, wat de gevolgen van multicollineariteit zijn, hoe u multicollineariteit kunt identificeren en, ten slotte, hoe u dit probleem kunt oplossen.
Wat is multicollineariteit?
Multicollineariteit is een situatie die optreedt wanneer twee of meer verklarende variabelen in een regressiemodel een hoge correlatie hebben. Met andere woorden: in een regressiemodel bestaat er sprake van multicollineariteit wanneer de relatie tussen twee of meer variabelen in het model zeer sterk is.
Als we bijvoorbeeld een regressiemodel gebruiken dat de levensverwachting van een land relateert aan de bevolkingsomvang en het bbp, zal er zeker multicollineariteit optreden tussen de bevolkingsomvang en het bbp, aangezien deze twee variabelen over het algemeen sterk gecorreleerd zijn. gecorreleerd. Het zal daarom moeilijk zijn om het effect van elke variabele op de levensverwachting te analyseren.
Logischerwijs zullen de variabelen in een model altijd met elkaar gecorreleerd zijn; alleen in een idyllisch proces vindt er geen correlatie plaats tussen variabelen. Waar we echter in geïnteresseerd zijn, is dat de correlatie tussen de variabelen laag is, anders kunnen we het effect van elke verklarende variabele op de responsvariabele niet kennen.
De belangrijkste oorzaken van multicollineariteit zijn over het algemeen de kleine omvang van de steekproef, het bestaan van een causaal verband tussen de verklarende variabelen of de lage variabiliteit van de waarnemingen.
Soorten multicollineariteit
Er zijn twee soorten multicollineariteit:
- Exacte multicollineariteit : wanneer een of meer variabelen een lineaire combinatie zijn van andere variabelen. In dit geval is de correlatiecoëfficiënt tussen multicollineaire variabelen gelijk aan 1.
- Geschatte multicollineariteit : Er is geen lineaire combinatie tussen variabelen, maar de determinatiecoëfficiënt tussen twee of meer variabelen ligt zeer dicht bij 1 en daarom zijn ze sterk gecorreleerd.
Gevolgen van multicollineariteit
- De waarde van de regressiecoëfficiënten van het model verandert wanneer correlerende variabelen worden toegevoegd, waardoor het moeilijk wordt om het resulterende regressiemodel te interpreteren.
- De precisie van de parameterschatting wordt verminderd, waardoor de standaardfout van de regressiecoëfficiënten toeneemt.
- Sommige van de variabelen die multicollineariteit veroorzaken zijn beslist overbodig en daarom is het niet nodig om ze in het model op te nemen.
- Het is waarschijnlijk dat u in een overfittingsituatie terechtkomt, dat wil zeggen dat het model overfit is en om deze reden niet bruikbaar is voor het maken van voorspellingen.
- De p-waarden van de regressiecoëfficiënten worden minder betrouwbaar. Daarom is het moeilijker om te bepalen welke variabelen in het regressiemodel moeten worden opgenomen en welke variabelen moeten worden verwijderd.
Hoe multicollineariteit te detecteren
Eén manier om multicollineariteit te identificeren is door de correlatiematrix te berekenen , omdat deze de correlatiecoëfficiënt tussen alle variabelen bevat en daarom kan worden waargenomen of een paar variabelen sterk gecorreleerd is.
Met de correlatiematrix kun je echter alleen weten of twee variabelen aan elkaar gerelateerd zijn, maar je kunt niet weten of er een combinatie is tussen een reeks variabelen. Om dit te doen, wordt meestal de variantie-inflatiefactor berekend.
De variantie-inflatiefactor (VIF) , ook wel de variantie-inflatiefactor (VIF) genoemd, is een statistische coëfficiënt die voor elke verklarende variabele wordt berekend en die de correlatie van andere variabelen met een bepaalde verklarende variabele aangeeft. Concreet is de formule als volgt:
Goud
is de inflatiefactor van de variantie van de variabele iy
is de determinatiecoëfficiënt van het regressiemodel dat de variabele i als afhankelijke variabele heeft en de rest van de variabelen als onafhankelijke variabelen.
Afhankelijk van de waarde van de verkregen variantie-inflatiefactoren is het dus mogelijk om te weten of er sprake is van multicollineariteit of niet:
- VIF = 1 : Wanneer de variantie-inflatiefactor gelijk is aan 1, betekent dit dat er geen correlatie bestaat tussen de afhankelijke variabele en de andere variabelen.
- 1 < IVF < 5 : er is een correlatie tussen de variabelen, maar deze is matig. In principe is het niet nodig om actie te ondernemen om multicollineariteit te corrigeren.
- VIF > 5 : Als een variantie-inflatiefactor groter is dan 1, betekent dit dat de multicollineariteit van het model hoog is en dat er daarom moet worden geprobeerd deze op te lossen.
In de praktijk worden variantie-inflatiefactoren meestal berekend met behulp van computersoftware, omdat het maken van een regressiemodel voor elke variabele en het vervolgens handmatig vinden van de coëfficiëntwaarde lang zou duren.
Correcte multicollineariteit
De volgende maatregelen kunnen nuttig zijn bij het oplossen van multicollineariteitsproblemen in een regressiemodel:
- Als de steekproefomvang klein is, kan het vergroten van het aantal gegevens de geschatte multicollineariteit verminderen.
- Verwijder alle variabelen die multicollineariteit veroorzaken. Als de variabelen sterk gecorreleerd zijn, gaat er weinig informatie verloren in het model en wordt de multicollineariteit verminderd.
- Maak het regressiemodel door het criterium van de gedeeltelijke kleinste kwadraten (PLS) toe te passen.
- Soms kunt u het regressiemodel laten zoals het is, met multicollineariteit. Als we bijvoorbeeld alleen maar een model willen maken om voorspellingen te doen en het niet hoeven te interpreteren, kunnen we de modelvergelijking gebruiken om de waarde van de afhankelijke variabele te voorspellen met een nieuwe waarneming, ervan uitgaande dat het multicollineariteitspatroon zichzelf herhaalt. in de nieuwe waarnemingen.