Multikollinearität
In diesem Artikel wird erklärt, was Multikollinearität in der Statistik ist. So erfahren Sie, wann Multikollinearität vorliegt, welche Konsequenzen Multikollinearität hat, wie man Multikollinearität erkennt und schließlich, wie man dieses Problem löst.
Was ist Multikollinearität?
Multikollinearität ist eine Situation, die auftritt, wenn zwei oder mehr erklärende Variablen in einem Regressionsmodell eine hohe Korrelation aufweisen. Mit anderen Worten: In einem Regressionsmodell liegt Multikollinearität vor, wenn die Beziehung zwischen zwei oder mehr Variablen im Modell sehr stark ist.
Wenn wir beispielsweise ein Regressionsmodell durchführen, das die Lebenserwartung eines Landes mit seiner Bevölkerungsgröße und seinem BIP in Beziehung setzt, wird es sicherlich zu Multikollinearität zwischen Bevölkerungsgröße und BIP kommen, da diese beiden Variablen im Allgemeinen stark korrelieren. korreliert. Daher wird es schwierig sein, die Auswirkung jeder Variablen auf die Lebenserwartung zu analysieren.
Logischerweise werden die Variablen in einem Modell immer miteinander korreliert; Nur in einem idyllischen Prozess kommt es zu Nichtkorrelationen zwischen Variablen. Was uns jedoch interessiert, ist, dass die Korrelation zwischen den Variablen gering ist, da wir sonst nicht die Auswirkung jeder erklärenden Variablen auf die Antwortvariable kennen können.
Die Hauptursachen für Multikollinearität sind im Allgemeinen die geringe Stichprobengröße, das Vorhandensein eines kausalen Zusammenhangs zwischen den erklärenden Variablen oder die geringe Variabilität der Beobachtungen.
Arten der Multikollinearität
Es gibt zwei Arten von Multikollinearität:
- Exakte Multikollinearität : wenn eine oder mehrere Variablen eine lineare Kombination anderer Variablen sind. In diesem Fall ist der Korrelationskoeffizient zwischen multikollinearen Variablen gleich 1.
- Ungefähre Multikollinearität : Es gibt keine lineare Kombination zwischen Variablen, aber das Bestimmtheitsmaß zwischen zwei oder mehr Variablen liegt sehr nahe bei 1 und daher sind sie stark korreliert.
Folgen der Multikollinearität
- Der Wert der Regressionskoeffizienten des Modells ändert sich, wenn korrelierende Variablen hinzugefügt werden, was die Interpretation des resultierenden Regressionsmodells erschwert.
- Die Genauigkeit der Parameterschätzung nimmt ab, sodass der Standardfehler der Regressionskoeffizienten zunimmt.
- Einige der Multikollinearität verursachenden Variablen sind sicherlich redundant und müssen daher nicht in das Modell einbezogen werden.
- Es ist wahrscheinlich, dass Sie in eine Überanpassungssituation geraten, das heißt, das Modell ist überangepasst und aus diesem Grund nicht für Vorhersagen geeignet.
- Die p-Werte der Regressionskoeffizienten werden weniger zuverlässig. Daher ist es schwieriger zu bestimmen, welche Variablen in das Regressionsmodell einbezogen und welche entfernt werden sollen.
So erkennen Sie Multikollinearität
Eine Möglichkeit, Multikollinearität zu identifizieren, ist die Berechnung der Korrelationsmatrix , da sie den Korrelationskoeffizienten zwischen allen Variablen enthält und daher beobachtet werden kann, wenn ein Variablenpaar stark korreliert ist.
Mit der Korrelationsmatrix können Sie jedoch nur wissen, ob zwei Variablen miteinander in Beziehung stehen, Sie können jedoch nicht wissen, ob es eine Kombination zwischen einer Menge von Variablen gibt. Hierzu wird üblicherweise der Varianzinflationsfaktor berechnet.
Der Varianzinflationsfaktor (VIF) , auch Varianzinflationsfaktor (VIF) genannt, ist ein statistischer Koeffizient, der für jede erklärende Variable berechnet wird und die Korrelation anderer Variablen mit einer bestimmten erklärenden Variablen angibt. Konkret lautet seine Formel wie folgt:
Gold
ist der Inflationsfaktor der Varianz der Variablen iy
ist das Bestimmtheitsmaß des Regressionsmodells, das die Variable i als abhängige Variable und die übrigen Variablen als unabhängige Variablen hat.
Abhängig vom Wert der erhaltenen Varianzinflationsfaktoren kann somit festgestellt werden, ob Multikollinearität vorliegt oder nicht:
- VIF = 1 : Wenn der Varianzinflationsfaktor gleich 1 ist, bedeutet dies, dass keine Korrelation zwischen der abhängigen Variablen und den anderen Variablen besteht.
- 1 < IVF < 5 : Es besteht eine Korrelation zwischen den Variablen, diese ist jedoch moderat. Grundsätzlich ist es nicht erforderlich, Maßnahmen zur Korrektur der Multikollinearität zu ergreifen.
- VIF > 5 : Wenn ein Varianzinflationsfaktor größer als 1 ist, bedeutet dies, dass die Multikollinearität des Modells hoch ist und daher versucht werden sollte, das Problem zu lösen.
In der Praxis werden Varianzinflationsfaktoren üblicherweise mithilfe von Computersoftware berechnet, da die Erstellung eines Regressionsmodells für jede Variable und das anschließende manuelle Ermitteln des Koeffizientenwerts viel Zeit in Anspruch nehmen würde.
Korrekte Multikollinearität
Die folgenden Maßnahmen können bei der Lösung von Multikollinearitätsproblemen in einem Regressionsmodell hilfreich sein:
- Wenn die Stichprobengröße klein ist, kann eine Erhöhung der Datenanzahl die ungefähre Multikollinearität verringern.
- Entfernen Sie alle Variablen, die Multikollinearität erzeugen. Wenn die Variablen stark korreliert sind, gehen im Modell nur wenige Informationen verloren und die Multikollinearität wird verringert.
- Erstellen Sie das Regressionsmodell, indem Sie das Kriterium der partiellen kleinsten Quadrate (PLS) anwenden.
- Manchmal können Sie das Regressionsmodell mit Multikollinearität unverändert lassen. Wenn wir beispielsweise nur ein Modell erstellen möchten, um Vorhersagen zu treffen, und es nicht interpretieren müssen, können wir die Modellgleichung verwenden, um den Wert der abhängigen Variablen mit einer neuen Beobachtung vorherzusagen, vorausgesetzt, dass sich das Multikollinearitätsmuster wiederholt in den neuen Beobachtungen.