Een gids voor multicollineariteit en vif in regressie


Multicollineariteit bij regressieanalyse treedt op wanneer twee of meer voorspellende variabelen sterk met elkaar gecorreleerd zijn, zodat ze geen unieke of onafhankelijke informatie verschaffen in het regressiemodel.

Als de mate van correlatie tussen variabelen hoog genoeg is, kan dit problemen veroorzaken bij het aanpassen en interpreteren van het regressiemodel.

Stel dat u bijvoorbeeld een regressieanalyse uitvoert met behulp van de maximale verticale sprongresponsvariabele en de volgende voorspellende variabelen:

  • hoogte
  • schoenmaat
  • uren per dag aan oefenen besteed

In dit geval zijn lengte en schoenmaat waarschijnlijk sterk gecorreleerd, omdat langere mensen doorgaans grotere schoenmaten hebben. Dit betekent dat multicollineariteit waarschijnlijk een probleem zal zijn bij deze regressie.

In deze tutorial wordt uitgelegd waarom multicollineariteit een probleem is, hoe u dit kunt detecteren en hoe u dit kunt oplossen.

Waarom multicollineariteit een probleem is

Een van de belangrijkste doelen van regressieanalyse is het isoleren van de relatie tussen elke voorspellende variabele en de responsvariabele.

Wanneer we regressieanalyses uitvoeren, interpreteren we met name elke regressiecoëfficiënt als de gemiddelde verandering in de responsvariabele, ervan uitgaande dat alle andere voorspellende variabelen in het model constant blijven.

Dit betekent dat we ervan uitgaan dat we de waarden van een bepaalde voorspellende variabele kunnen veranderen zonder de waarden van andere voorspellende variabelen te veranderen.

Wanneer twee of meer voorspellende variabelen echter sterk gecorreleerd zijn, wordt het moeilijk om de ene variabele te veranderen zonder de andere te veranderen.

Dit maakt het moeilijk voor het regressiemodel om onafhankelijk de relatie tussen elke voorspellende variabele en de responsvariabele te schatten, omdat de voorspellende variabelen de neiging hebben om tegelijkertijd te veranderen.

Over het algemeen levert multicollineariteit twee soorten problemen op:

  • De coëfficiëntschattingen van het model (en zelfs de tekenen van de coëfficiënten) kunnen aanzienlijk fluctueren, afhankelijk van de andere voorspellende variabelen die in het model zijn opgenomen.
  • De nauwkeurigheid van coëfficiëntschattingen wordt verminderd, waardoor p-waarden onbetrouwbaar worden. Dit maakt het moeilijk om te bepalen welke voorspellende variabelen daadwerkelijk statistisch significant zijn.

Hoe multicollineariteit te detecteren

De meest gebruikelijke manier om multicollineariteit te detecteren is door de variantie-inflatiefactor (VIF) te gebruiken, die de correlatie en sterkte van de correlatie tussen voorspellende variabelen in een regressiemodel meet.

Gebruik van de variantie-inflatiefactor (VIF)

De meeste statistische software heeft de mogelijkheid om de VIF voor een regressiemodel te berekenen. De VIF-waarde begint bij 1 en heeft geen bovengrens. Een algemene regel voor het interpreteren van VIF’s is:

  • Een waarde van 1 geeft aan dat er geen correlatie bestaat tussen een bepaalde voorspellende variabele en enige andere voorspellende variabele in het model.
  • Een waarde tussen 1 en 5 duidt op een gematigde correlatie tussen een bepaalde voorspellende variabele en andere voorspellende variabelen in het model, maar deze is vaak niet ernstig genoeg om speciale aandacht te vereisen.
  • Een waarde groter dan 5 duidt op een potentieel ernstige correlatie tussen een bepaalde voorspellende variabele en andere voorspellende variabelen in het model. In dit geval zijn de coëfficiëntschattingen en p-waarden in de regressieresultaten waarschijnlijk onbetrouwbaar.

Stel dat we bijvoorbeeld een regressieanalyse uitvoeren met behulp van de voorspellende variabelen lengte , schoenmaat en uren training per dag om de maximale verticale sprong van basketbalspelers te voorspellen en het volgende resultaat te krijgen:

In de laatste kolom kunnen we zien dat de VIF-waarden voor lengte en schoenmaat beide groter zijn dan 5. Dit geeft aan dat ze waarschijnlijk last hebben van multicollineariteit en dat hun coëfficiëntschattingen en p-waarden waarschijnlijk onbetrouwbaar zijn.

Als we kijken naar de coëfficiëntschatting voor schoenmaat, vertelt het model ons dat voor elke extra eenheid toename van de schoenmaat de gemiddelde toename van de maximale verticale sprong -0,67498 inch bedraagt, ervan uitgaande dat de hoogte en het aantal oefenuren constant blijven.

Dit lijkt niet logisch, aangezien we verwachten dat spelers met grotere schoenen groter zijn en dus een hogere maximale verticale sprong hebben.

Dit is een klassiek voorbeeld van multicollineariteit, waardoor de schattingen van de coëfficiënten een beetje vergezocht en niet intuïtief lijken.

Hoe multicollineariteit op te lossen

Als u multicollineariteit constateert, is de volgende stap het beslissen of u dit op de een of andere manier moet oplossen. Afhankelijk van het doel van uw regressieanalyse hoeft u wellicht geen multicollineariteit op te lossen.

Weten:

1. Als er sprake is van slechts matige multicollineariteit, hoeft u dit waarschijnlijk op geen enkele manier op te lossen.

2. Multicollineariteit heeft alleen invloed op voorspellende variabelen die met elkaar gecorreleerd zijn. Als u geïnteresseerd bent in een voorspellende variabele in het model die geen last heeft van multicollineariteit, dan is multicollineariteit geen probleem.

3. Multicollineariteit heeft invloed op coëfficiëntschattingen en p-waarden, maar heeft geen invloed op voorspellingen of goodness-of-fit-statistieken. Dit betekent dat als uw primaire doel met regressie het doen van voorspellingen is en u niet geïnteresseerd bent in het begrijpen van de exacte relatie tussen de voorspellende variabelen en de responsvariabele, multicollineariteit niet hoeft te worden opgelost.

Als u vaststelt dat u multicollineariteit moet corrigeren, zijn enkele veelvoorkomende oplossingen:

1. Verwijder een of meer van de sterk gecorreleerde variabelen. Dit is in de meeste gevallen de snelste oplossing en is vaak een acceptabele oplossing omdat de variabelen die u verwijdert sowieso overbodig zijn en weinig unieke of onafhankelijke informatie aan het model toevoegen.

2. Combineert de voorspellende variabelen op een bepaalde manier lineair, bijvoorbeeld door ze op een of andere manier toe te voegen of af te trekken. Door dit te doen, kunt u een nieuwe variabele maken die de informatie van beide variabelen omvat en heeft u niet langer een multicollineariteitsprobleem.

3. Voer een analyse uit die is ontworpen om rekening te houden met sterk gecorreleerde variabelen, zoals hoofdcomponentenanalyse of PLS-regressie (partiële kleinste kwadraten) . Deze technieken zijn specifiek ontworpen om sterk gecorreleerde voorspellende variabelen te verwerken.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert