Was ist die dummy-variablenfalle? (definition & #038; beispiel)


Die lineare Regression ist eine Methode, mit der wir die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen quantifizieren können.

Wir verwenden im Allgemeinen lineare Regression mit quantitativen Variablen . Manchmal auch „numerische“ Variablen genannt, handelt es sich dabei um Variablen, die eine messbare Größe darstellen. Beispiele beinhalten:

  • Anzahl der Quadratmeter in einem Haus
  • Bevölkerungsgröße einer Stadt
  • Alter einer Person

Manchmal möchten wir jedoch kategoriale Variablen als Prädiktorvariablen verwenden. Dies sind Variablen, die Namen oder Bezeichnungen annehmen und in Kategorien fallen können. Beispiele beinhalten:

  • Augenfarbe (z. B. „blau“, „grün“, „braun“)
  • Geschlecht (z. B. „Mann“, „Frau“)
  • Familienstand (z. B. „verheiratet“, „ledig“, „geschieden“)

Bei der Verwendung kategorialer Variablen macht es keinen Sinn, Werte wie 1, 2, 3 einfach Werten wie „blau“, „grün“ und „braun“ zuzuweisen, da dies keinen Sinn ergibt das Grün ist doppelt. so bunt wie Blau oder Braun, ist dreimal bunter als Blau.

Stattdessen besteht die Lösung darin, Dummy-Variablen zu verwenden. Dabei handelt es sich um Variablen, die wir speziell für die Regressionsanalyse erstellen und die einen von zwei Werten annehmen: Null oder Eins.

Die Anzahl der Dummy-Variablen, die wir erstellen müssen, ist gleich k -1, wobei k die Anzahl der verschiedenen Werte ist, die die kategoriale Variable annehmen kann.

Angenommen, wir haben den folgenden Datensatz und möchten Familienstand und Alter verwenden, um das Einkommen vorherzusagen:

Um den Familienstand als Prädiktorvariable in einem Regressionsmodell zu verwenden, müssen wir ihn in eine Dummy-Variable umwandeln.

Da es sich derzeit um eine kategoriale Variable handelt, die drei verschiedene Werte annehmen kann („Single“, „Verheiratet“ oder „Geschieden“), müssen wir k -1 = 3-1 = 2 Dummy-Variablen erstellen.

Um diese Dummy-Variable zu erstellen, können wir „Single“ als Basiswert belassen, da diese am häufigsten vorkommt. So würden wir den Familienstand in Dummy-Variablen umwandeln:

Dummy-Variable mit drei Werten

Wir könnten dann Alter , Verheiratet und Geschieden als Prädiktorvariablen in einem Regressionsmodell verwenden.

Beim Erstellen von Dummy-Variablen kann ein Problem auftreten, das als Dummy-Variablen-Trap bezeichnet wird. Dies geschieht, wenn wir k Dummy-Variablen anstelle von k -1 Dummy-Variablen erstellen.

Wenn dies geschieht, leiden mindestens zwei der Dummy-Variablen unter perfekter Multikollinearität . Mit anderen Worten: Sie werden perfekt korreliert sein. Dies führt zu falschen Berechnungen der Regressionskoeffizienten und der entsprechenden p-Werte.

Dummy-Variablenfalle: Wenn die Anzahl der erstellten Dummy-Variablen gleich der Anzahl der Werte ist, die der kategoriale Wert annehmen kann. Dies führt zu Multikollinearität, was zu falschen Berechnungen von Regressionskoeffizienten und p-Werten führt.

Angenommen, wir konvertieren den Familienstand in die folgenden Dummy-Variablen:

Beispiel für eine Dummy-Variablenfalle

In diesem Fall sind „Single“ und „Married“ perfekt korreliert und haben einen Korrelationskoeffizienten von -1.

Wenn wir also eine multiple lineare Regression durchführen, sind die Berechnungen des Regressionskoeffizienten falsch.

So vermeiden Sie die Dummy-Variablenfalle

Sie müssen sich nur eine Regel merken, um die Falle von Dummy-Variablen zu vermeiden:

Wenn eine kategoriale Variable k verschiedene Werte annehmen kann, sollten Sie nur k-1 Dummy-Variablen zur Verwendung im Regressionsmodell erstellen.

Angenommen, Sie möchten eine kategoriale Variable „Schuljahr“ in Dummy-Variablen umwandeln. Angenommen, diese Variable nimmt die folgenden Werte an:

  • Student im ersten Jahr
  • Student im zweiten Jahr
  • Junior
  • Senior

Da diese Variable 4 verschiedene Werte annehmen kann, erstellen wir nur 3 Dummy-Variablen. Unsere Dummy-Variablen könnten beispielsweise sein:

  • X 1 = 1, wenn Student im zweiten Studienjahr; 0 sonst
  • X 2 = 1 wenn Junior; 0 sonst
  • X 3 = 1 Eibe Senior; 0 sonst

Da die Anzahl der Dummy-Variablen um eins geringer ist als die Anzahl der Werte, die „Schuljahr“ annehmen kann, können wir die Dummy-Variablenfalle und das Multikollinearitätsproblem vermeiden.

Zusätzliche Ressourcen

Verwendung von Dummy-Variablen in der Regressionsanalyse
Einführung in die multiple lineare Regression
Ein Leitfaden zur Multikollinearität in der Regression

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert