Ausgelassene variablenverzerrung: definition und beispiele
Eine Verzerrung durch ausgelassene Variablen tritt auf, wenn eine relevante erklärende Variable nicht in einemRegressionsmodell enthalten ist, was zu einer Verzerrung des Koeffizienten einer oder mehrerer erklärender Variablen im Modell führen kann.
Eine ausgelassene Variable wird oft aus einem von zwei Gründen aus einem Regressionsmodell ausgeschlossen:
1. Daten für die Variable sind einfach nicht verfügbar.
2. Die Auswirkung der erklärenden Variablen auf die Antwortvariable ist unbekannt.
Damit die ausgelassene Variable tatsächlich die Modellkoeffizienten verzerrt, müssen die folgenden zwei Bedingungen erfüllt sein:
1. Die ausgelassene Variable muss mit einer oder mehreren erklärenden Variablen im Modell korreliert sein.
2. Die ausgelassene Variable muss mit der Antwortvariablen im Modell korreliert sein.
Die Auswirkungen der ausgelassenen Variablenverzerrung
Angenommen, wir haben zwei erklärende Variablen, A und B, und eine Antwortvariable, Y. Angenommen, wir passen ein einfaches lineares Regressionsmodell mit A als einziger erklärender Variable an und lassen B aus dem Modell heraus.
Wenn B mit A und Y korreliert, führt dies zu einer Verzerrung bei der Schätzung des Koeffizienten von A. Das folgende Diagramm zeigt, wie die Schätzung des Koeffizienten von A verzerrt sein wird, abhängig von der Art der Beziehung mit B:
Beispiel: weggelassene Variablenverzerrung
Angenommen, wir möchten die Auswirkung der Quadratmeterzahl auf den Immobilienpreis untersuchen und wenden daher das folgende einfache lineare Regressionsmodell an:
Hauspreis = B 0 + B 1 (quadratische Fläche)
Angenommen, wir stellen fest, dass das geschätzte Modell ist:
Hauspreis = 40.203,91 + 118,31 (Quadratfläche)
Wir interpretieren den Koeffizienten für die Quadratmeterzahl so, dass jede weitere Erhöhung der Quadratmeterzahl um eine Einheit mit einem Anstieg des Hauspreises um durchschnittlich 118,31 US-Dollar einhergeht.
Nehmen wir jedoch an, wir lassen die erklärende Variable Alter weg, die stark negativ mit der Quadratmeterzahl und stark negativ mit dem Immobilienpreis korreliert. Diese Variable sollte im Modell vorhanden sein, ist es aber nicht. Daher ist die Koeffizientenschätzung für die Quadratmeterzahl wahrscheinlich verzerrt.
Da das Alter sowohl mit der erklärenden Variablen als auch mit der Antwortvariablen im Modell negativ korreliert, gehen wir davon aus, dass die Koeffizientenschätzung für die Quadratmeterzahl positiv verzerrt ist:
Angenommen, wir finden Daten zum Alter der Wohnung und beziehen diese dann in das Modell ein. Das Modell wird dann:
Hauspreis = B 0 + B 1 (Quadratfläche) + B 2 (Alter)
Angenommen, wir stellen fest, dass das geschätzte Modell ist:
Hauspreis = 123.426,20 + 81,06 (Quadratfläche) – 1.291,04 (Alter)
Beachten Sie, dass die Koeffizientenschätzung für die Quadratmeterzahl erheblich gesunken ist, was bedeutet, dass sie im vorherigen Modell positiv verzerrt war .
Die Art und Weise, wie wir den Quadratmeterkoeffizienten in diesem Modell interpretieren, ist, dass jede weitere Erhöhung der Quadratmeterzahl um eine Einheit mit einem durchschnittlichen Hauspreisanstieg von 81,06 $ verbunden ist, vorausgesetzt, dass das Alter konstant bleibt.
Was tun gegen den Bias durch ausgelassene Variablen?
Leider kommt es in der realen Welt häufig zu einer Verzerrung durch ausgelassene Variablen, da bestimmte Variablen generell in ein Regressionsmodell einbezogen werden sollten , dies jedoch nicht der Fall ist, weil die Daten für sie nicht verfügbar sind oder die Beziehung zwischen ihnen und der Antwortvariablen unbekannt ist.
Wenn möglich, sollten Sie versuchen, alle relevanten erklärenden Variablen in ein Regressionsmodell einzubeziehen, damit Sie die wahre Beziehung zwischen den erklärenden Variablen und der Antwortvariablen verstehen können.
Das Ausschließen relevanter erklärender Variablen aus einem Modell kann die Interpretation des Modells erheblich beeinflussen, wie wir im vorherigen Beispiel mit Immobilienpreisen gesehen haben.
Zusätzliche Ressourcen
Was ist eine versteckte Variable?
Was ist eine verwirrende Variable?