Instrumentelle variablen: definition und beispiele
In der Statistik versuchen wir oft, die Wirkung einer Variablen auf eine andere abzuschätzen. Zum Beispiel möchten wir vielleicht wissen:
- Wie wirkt sich die Lernzeit auf die Prüfungsergebnisse aus?
- Wie wirkt sich ein bestimmtes Medikament auf den Blutdruck aus?
- Wie wirkt sich Stress auf die Herzfrequenz aus?
In jedem Szenario möchten wir verstehen, ob eine Prädiktorvariable eine Antwortvariable beeinflusst oder nicht. Allerdings gibt es oft auch andere Variablen, die die Beziehung zwischen den beiden Variablen beeinflussen.
Angenommen, wir verwenden ein bestimmtes Medikament als Prädiktorvariable und den Blutdruck als Antwortvariable. Uns interessiert nur die Wirkung des Medikaments auf den Blutdruck:
Allerdings beeinflussen auch andere Variablen wie die mit dem Training verbrachte Zeit, die allgemeine Ernährung und das Stressniveau den Blutdruck:
Wenn wir also eineeinfache lineare Regression durchführen und dabei das Medikament als Prädiktorvariable und den Blutdruck als Antwortvariable verwenden, können wir nicht sicher sein, dass die Regressionskoeffizienten die Wirkung des Medikaments auf den Blutdruck genau erfassen, da externe Faktoren (Bewegung, Ernährung, Stress usw.) könnten ebenfalls eine Rolle spielen.
Eine mögliche Möglichkeit, dieses Problem zu umgehen, ist die Verwendung einer Instrumentvariablen .
Was ist eine instrumentelle Variable?
Eine instrumentelle Variable ist eine dritte Variable, die in die Regressionsanalyse eingeführt wird und mit der Prädiktorvariablen korreliert, jedoch nicht mit der Antwortvariablen korreliert. Mithilfe dieser Variablen wird es möglich, den tatsächlichen kausalen Effekt abzuschätzen, den eine Prädiktorvariable auf eine Antwortvariable hat.
Angenommen, wir möchten die Wirkung eines bestimmten Medikaments auf den Blutdruck abschätzen:
Ein Beispiel für eine instrumentelle Variable, die wir in dieser Regressionsanalyse verwenden können, ist die Nähe einer Person zu einer Apotheke.
Diese „Nähe“-Variable hängt wahrscheinlich stark davon ab, ob die Person das betreffende Medikament einnimmt oder nicht, da eine Person es gar nicht erst bekommen könnte, wenn sie nicht in der Nähe einer Apotheke wohnt.
Allerdings sollte die Variable „Nähe“ keinen Zusammenhang mit dem Blutdruck haben. Der einzige Zusammenhang mit dem Blutdruck besteht über die Prädiktorvariable.
Die Art und Weise, wie wir eine instrumentelle Variable tatsächlich verwenden, besteht darin, eine instrumentelle Variablenregression durchzuführen, die manchmal auch als zweistufige Regression der kleinsten Quadrate bezeichnet wird.
Regression instrumenteller Variablen
Die instrumentelle Variablenregression (oder zweistufige Regression der kleinsten Quadrate) verwendet den folgenden Ansatz, um die Auswirkung einer Prädiktorvariablen auf eine Antwortvariable abzuschätzen:
Schritt 1: Passen Sie ein Regressionsmodell an, indem Sie die Instrumentvariable als Prädiktorvariable verwenden.
In unserem konkreten Beispiel würden wir zunächst das folgende Regressionsmodell anpassen:
Bestimmte Medikamente = B 0 + B 1 (Nähe)
Übrig blieben uns dann die vorhergesagten Werte für bestimmte Medikamente (cd), die wir cd hat nennen.
Schritt 2: Passen Sie ein zweites Regressionsmodell unter Verwendung der vorhergesagten Werte für cd hat an.
Als nächstes passen wir das folgende Regressionsmodell an:
Blutdruck = B 0 + B 1 (cd hat )
Wenn sich herausstellt, dass der Regressionskoeffizient von cd hat statistisch signifikant ist, können wir sagen, dass es einen kausalen Effekt des Arzneimittels auf den Blutdruck gibt.
Der Grund, warum wir dies sagen können, ist, dass wir bei der Erstellung von CD Hat nur den Begriff „Nähe“ verwendet haben und wissen, dass Nähe nicht mit dem Blutdruck korrelieren sollte; jede signifikante Korrelation in der zweiten Regressionsstufe kann einem bestimmten Medikament zugeschrieben werden.
Vorsichtsmaßnahmen hinsichtlich der Verwendung instrumenteller Variablen
Eine instrumentelle Variable sollte nur verwendet werden, wenn sie die folgenden Kriterien erfüllt:
- Sie korreliert stark mit der Vorhersagevariablen.
- Sie korreliert nicht mit der Antwortvariablen.
- Es korreliert nicht mit anderen Variablen, die aus dem Modell ausgeschlossen sind (z. B. korreliert die Nähe nicht mit Bewegung, Ernährung oder Stress).
Wenn eine Instrumentvariable dieses Kriterium nicht erfüllt, sollte sie nicht im Regressionsmodell verwendet werden, da sie wahrscheinlich zu unzuverlässigen und verzerrten Ergebnissen führt.