So erstellen sie dummy-variablen in excel (schritt für schritt)
Eine Dummy-Variable ist ein Variablentyp, den wir in der Regressionsanalyse erstellen, damit wir eine kategoriale Variable als numerische Variable darstellen können, die einen von zwei Werten annimmt: Null oder Eins.
Angenommen, wir haben den folgenden Datensatz und möchten Alter und Familienstand verwenden, um das Einkommen vorherzusagen:
Um den Familienstand als Prädiktorvariable in einem Regressionsmodell zu verwenden, müssen wir ihn in eine Dummy-Variable umwandeln.
Da es sich derzeit um eine kategoriale Variable handelt, die drei verschiedene Werte annehmen kann („Single“, „Verheiratet“ oder „Geschieden“), müssen wir k -1 = 3-1 = 2 Dummy-Variablen erstellen.
Um diese Dummy-Variable zu erstellen, können wir „Single“ als Basiswert belassen, da diese am häufigsten vorkommt. So würden wir den Familienstand in Dummy-Variablen umwandeln:
Dieses Tutorial bietet ein schrittweises Beispiel für die Erstellung von Dummy-Variablen für genau diesen Datensatz in Excel und die anschließende Durchführung einer Regressionsanalyse unter Verwendung dieser Dummy-Variablen als Prädiktoren.
Schritt 1: Erstellen Sie die Daten
Erstellen wir zunächst den Datensatz in Excel:
Schritt 2: Erstellen Sie die Dummy-Variablen
Als nächstes können wir die Werte aus den Spalten A und B in die Spalten E und F kopieren und dann die Funktion IF() in Excel verwenden, um zwei neue Dummy-Variablen zu definieren: Verheiratet und Geschieden.
Hier ist die Formel, die wir in Zelle G2 verwendet und in die restlichen Zellen in Spalte G kopiert haben:
= IF (C2 = "Married", 1, 0)
Und hier ist die Formel, die wir in Zelle H2 verwendet und in die restlichen Zellen in Spalte H kopiert haben:
= IF (C2 = "Divorced", 1, 0)
Dann können wir diese Dummy-Variablen in einem Regressionsmodell verwenden, um das Einkommen vorherzusagen.
Schritt 3: Führen Sie eine lineare Regression durch
Um eine mehrfache lineare Regression durchzuführen, müssen wir im oberen Menüband auf die Registerkarte „Daten“ klicken und dann im Abschnitt „Analyse “ auf „Datenanalyse“ klicken :
Wenn diese Option nicht verfügbar ist, müssen Sie zuerst Analysis Toolpak laden.
Klicken Sie im angezeigten Fenster auf Regression und dann auf OK .
Geben Sie als Nächstes die folgenden Informationen ein und klicken Sie auf OK .
Dies führt zu folgendem Ergebnis:
Aus dem Ergebnis können wir ersehen, dass die angepasste Regressionslinie wie folgt lautet:
Einkommen = 14.276,12 + 1.471,67*(Alter) + 2.479,75*(verheiratet) – 8.397,40*(geschieden)
Mit dieser Gleichung können wir das geschätzte Einkommen einer Person basierend auf ihrem Alter und Familienstand ermitteln. Beispielsweise hätte eine verheiratete Person im Alter von 35 Jahren ein geschätztes Einkommen von 68.264 US-Dollar :
Einkommen = 14.276,12 + 1.471,67*(35) + 2.479,75*(1) – 8.397,40*(0) = 68.264 $
So interpretieren Sie die Regressionskoeffizienten in der Tabelle:
- Schnittpunkt: Der Schnittpunkt stellt das durchschnittliche Einkommen einer einzelnen Person im Alter von null Jahren dar. Da eine Person nicht null Jahre alt sein kann, ist es in diesem speziellen Regressionsmodell nicht sinnvoll, den Achsenabschnitt allein zu interpretieren.
- Alter: Jedes Jahr steigenden Alters ist mit einer durchschnittlichen Einkommenssteigerung von 1.471,67 $ verbunden. Da der p-Wert (0,004) kleiner als 0,05 ist, ist das Alter ein statistisch signifikanter Prädiktor für das Einkommen.
- Verheiratet: Eine verheiratete Person verdient im Durchschnitt 2.479,75 $ mehr als eine alleinstehende Person. Da der p-Wert (0,800) nicht kleiner als 0,05 ist, ist dieser Unterschied statistisch nicht signifikant.
- Geschieden: Eine geschiedene Person verdient im Durchschnitt 8.397,40 $ weniger als eine alleinstehende Person. Da der p-Wert (0,532) nicht kleiner als 0,05 ist, ist dieser Unterschied statistisch nicht signifikant.
Da beide Dummy-Variablen statistisch nicht signifikant waren, konnten wir den Familienstand als Prädiktor aus dem Modell entfernen, da er offenbar keinen prädiktiven Wert für das Einkommen bietet.
Zusätzliche Ressourcen
So führen Sie eine einfache lineare Regression in Excel durch
So berechnen Sie die Restquadratsumme in Excel
So führen Sie eine Polynomregression in Excel durch
So erstellen Sie ein Residuendiagramm in Excel