Ein leitfaden zu multikollinearität und vif in der regression
Multikollinearität in der Regressionsanalyse tritt auf, wenn zwei oder mehr Prädiktorvariablen stark miteinander korrelieren, sodass sie im Regressionsmodell keine eindeutigen oder unabhängigen Informationen liefern.
Wenn der Korrelationsgrad zwischen den Variablen hoch genug ist, kann dies zu Problemen bei der Anpassung und Interpretation des Regressionsmodells führen.
Angenommen, Sie führen eine Regressionsanalyse mit der Antwortvariablen „Maximaler vertikaler Sprung“ und den folgenden Prädiktorvariablen durch:
- Höhe
- Schuhgröße
- Übungsstunden pro Tag
In diesem Fall besteht wahrscheinlich ein enger Zusammenhang zwischen Körpergröße und Schuhgröße , da größere Menschen tendenziell größere Schuhgrößen haben. Dies bedeutet, dass Multikollinearität bei dieser Regression wahrscheinlich ein Problem darstellt.
In diesem Tutorial wird erläutert, warum Multikollinearität ein Problem darstellt, wie man sie erkennt und wie man sie behebt.
Warum Multikollinearität ein Problem ist
Eines der Hauptziele der Regressionsanalyse besteht darin, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen zu isolieren.
Insbesondere wenn wir eine Regressionsanalyse durchführen, interpretieren wir jeden Regressionskoeffizienten als durchschnittliche Änderung der Antwortvariablen unter der Annahme, dass alle anderen Prädiktorvariablen im Modell konstant bleiben.
Das bedeutet, dass wir davon ausgehen, dass wir in der Lage sind, die Werte einer bestimmten Prädiktorvariablen zu ändern, ohne die Werte anderer Prädiktorvariablen zu ändern.
Wenn jedoch zwei oder mehr Prädiktorvariablen stark korrelieren, wird es schwierig, eine Variable zu ändern, ohne eine andere zu ändern.
Dies macht es für das Regressionsmodell schwierig, die Beziehung zwischen jeder Prädiktorvariablen und der Antwortvariablen unabhängig abzuschätzen, da sich die Prädiktorvariablen tendenziell gemeinsam ändern.
Im Allgemeinen wirft Multikollinearität zwei Arten von Problemen auf:
- Die Koeffizientenschätzungen des Modells (und sogar die Vorzeichen der Koeffizienten) können abhängig von den anderen im Modell enthaltenen Prädiktorvariablen erheblich schwanken.
- Die Genauigkeit der Koeffizientenschätzungen wird verringert, was die p-Werte unzuverlässig macht. Dies macht es schwierig zu bestimmen, welche Prädiktorvariablen tatsächlich statistisch signifikant sind.
So erkennen Sie Multikollinearität
Die gebräuchlichste Methode zur Erkennung von Multikollinearität ist die Verwendung des Varianzinflationsfaktors (VIF) , der die Korrelation und Stärke der Korrelation zwischen Prädiktorvariablen in einem Regressionsmodell misst.
Verwendung des Varianzinflationsfaktors (VIF)
Die meisten Statistikprogramme verfügen über die Möglichkeit, den VIF für ein Regressionsmodell zu berechnen. Der VIF-Wert beginnt bei 1 und hat keine Obergrenze. Eine allgemeine Regel für die Interpretation von VIFs lautet:
- Ein Wert von 1 gibt an, dass keine Korrelation zwischen einer bestimmten Prädiktorvariablen und einer anderen Prädiktorvariablen im Modell besteht.
- Ein Wert zwischen 1 und 5 weist auf eine mäßige Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell hin, ist jedoch oft nicht schwerwiegend genug, um besondere Aufmerksamkeit zu erfordern.
- Ein Wert größer als 5 weist auf eine potenziell schwerwiegende Korrelation zwischen einer bestimmten Prädiktorvariablen und anderen Prädiktorvariablen im Modell hin. In diesem Fall sind die Koeffizientenschätzungen und p-Werte in den Regressionsergebnissen wahrscheinlich unzuverlässig.
Angenommen, wir führen eine Regressionsanalyse mit den Prädiktorvariablen Höhe , Schuhgröße und Trainingsstunden pro Tag durch, um den maximalen vertikalen Sprung von Basketballspielern vorherzusagen, und erhalten das folgende Ergebnis:
In der letzten Spalte können wir sehen, dass die VIF-Werte für Körpergröße und Schuhgröße beide größer als 5 sind. Dies weist darauf hin, dass sie wahrscheinlich unter Multikollinearität leiden und dass ihre Koeffizientenschätzungen und p-Werte wahrscheinlich unzuverlässig sind.
Wenn wir uns die Koeffizientenschätzung für die Schuhgröße ansehen, sagt uns das Modell, dass für jede zusätzliche Einheit der Schuhgröße die durchschnittliche Zunahme des maximalen vertikalen Sprungs -0,67498 Zoll beträgt, vorausgesetzt, Körpergröße und Übungsstunden bleiben konstant.
Dies scheint keinen Sinn zu ergeben, wenn man bedenkt, dass wir von Spielern mit größeren Schuhen erwarten würden, dass sie größer sind und somit einen höheren maximalen vertikalen Sprung haben.
Dies ist ein klassisches Beispiel für Multikollinearität, das die Koeffizientenschätzungen etwas weit hergeholt und unintuitiv erscheinen lässt.
So lösen Sie Multikollinearität
Wenn Sie Multikollinearität feststellen, besteht der nächste Schritt darin, zu entscheiden, ob Sie das Problem irgendwie beheben müssen. Abhängig vom Ziel Ihrer Regressionsanalyse müssen Sie die Multikollinearität möglicherweise nicht auflösen.
Wissen:
1. Wenn die Multikollinearität nur mäßig ist, müssen Sie sie wahrscheinlich in keiner Weise beheben.
2. Multikollinearität betrifft nur Prädiktorvariablen, die miteinander korrelieren. Wenn Sie an einer Prädiktorvariablen im Modell interessiert sind, die nicht unter Multikollinearität leidet, ist Multikollinearität kein Problem.
3. Multikollinearität wirkt sich auf Koeffizientenschätzungen und p-Werte aus, aber nicht auf Vorhersagen oder Anpassungsstatistiken. Dies bedeutet, dass die Multikollinearität nicht gelöst werden muss, wenn Ihr Hauptziel bei der Regression darin besteht, Vorhersagen zu treffen, und Sie nicht daran interessiert sind, die genaue Beziehung zwischen den Prädiktorvariablen und der Antwortvariablen zu verstehen.
Wenn Sie feststellen, dass Sie die Multikollinearität korrigieren müssen , sind einige gängige Lösungen:
1. Entfernen Sie eine oder mehrere der stark korrelierten Variablen. Dies ist in den meisten Fällen die schnellste Lösung und oft eine akzeptable Lösung, da die von Ihnen entfernten Variablen ohnehin redundant sind und dem Modell nur wenige eindeutige oder unabhängige Informationen hinzufügen.
2. Kombiniert die Prädiktorvariablen auf irgendeine Weise linear, z. B. indem sie auf irgendeine Weise addiert oder subtrahiert werden. Auf diese Weise können Sie eine neue Variable erstellen, die die Informationen beider Variablen umfasst, und Sie haben kein Multikollinearitätsproblem mehr.
3. Führen Sie eine Analyse durch, die stark korrelierte Variablen berücksichtigt, z. B. eine Hauptkomponentenanalyse oder eine PLS-Regression (Partial Least Squares) . Diese Techniken sind speziell für den Umgang mit stark korrelierten Prädiktorvariablen konzipiert.