So treffen sie vorhersagen mit linearer regression
Die lineare Regression ist eine Methode, mit der wir die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen quantifizieren können.
Einer der häufigsten Gründe für die Anpassung eines Regressionsmodells besteht darin, das Modell zur Vorhersage der Werte neuer Beobachtungen zu verwenden.
Wir verwenden die folgenden Schritte, um Vorhersagen mit einem Regressionsmodell zu treffen:
- Schritt 1: Daten sammeln.
- Schritt 2: Passen Sie ein Regressionsmodell an die Daten an.
- Schritt 3: Überprüfen Sie, ob das Modell zu den Daten passt.
- Schritt 4: Verwenden Sie die angepasste Regressionsgleichung, um die Werte der neuen Beobachtungen vorherzusagen.
Die folgenden Beispiele zeigen, wie man mithilfe von Regressionsmodellen Vorhersagen treffen kann.
Beispiel 1: Vorhersagen mit einem einfachen linearen Regressionsmodell
Angenommen, ein Arzt sammelt Daten über die Größe (in Zoll) und das Gewicht (in Pfund) von 50 Patienten.
Anschließend wird ein einfaches lineares Regressionsmodell angepasst, bei dem „Gewicht“ als Prädiktorvariable und „Höhe“ als Antwortvariable verwendet wird.
Die angepasste Regressionsgleichung lautet:
Größe = 32,7830 + 0,2001*(Gewicht)
Nachdem er überprüft hat, dass die Annahmen des linearen Regressionsmodells erfüllt sind, kommt der Arzt zu dem Schluss, dass das Modell gut zu den Daten passt.
Anschließend kann das Modell verwendet werden, um die Größe neuer Patienten anhand ihres Gewichts vorherzusagen.
Nehmen wir zum Beispiel an, ein neuer Patient wiegt 170 Pfund. Anhand des Modells würden wir vorhersagen, dass dieser Patient eine Größe von 66,8 Zoll haben würde:
Höhe = 32,7830 + 0,2001*(170) = 66,8 Zoll
Beispiel 2: Vorhersagen mit einem multiplen linearen Regressionsmodell
Angenommen, ein Wirtschaftswissenschaftler sammelt Daten über die Gesamtzahl der Ausbildungsjahre, die wöchentlich geleisteten Arbeitsstunden und das Jahreseinkommen von 30 Personen.
Anschließend wird ein multiples lineares Regressionsmodell angepasst, bei dem „Gesamtausbildungsjahre“ und „wöchentlich geleistete Arbeitsstunden“ als Prädiktorvariable und „Jahreseinkommen“ als Antwortvariable verwendet werden.
Die angepasste Regressionsgleichung lautet:
Einkommen = 1.342,29 + 3.324,33*(Schuljahre) + 765,88*(wöchentlich geleistete Arbeitsstunden)
Nachdem er überprüft hat, dass die Annahmen des linearen Regressionsmodells erfüllt sind, kommt der Ökonom zu dem Schluss, dass das Modell gut zu den Daten passt.
Anschließend kann das Modell verwendet werden, um das Jahreseinkommen einer neuen Person auf der Grundlage ihrer gesamten Ausbildungsjahre und der wöchentlich geleisteten Arbeitsstunden vorherzusagen.
Angenommen, eine neue Person hat insgesamt 16 Jahre Ausbildung absolviert und arbeitet durchschnittlich 40 Stunden pro Woche. Mithilfe des Modells würden wir vorhersagen, dass diese Person ein Jahreseinkommen von 85.166,77 $ haben würde:
Einkommen = 1.342,29 + 3.324,33*(16) + 765,88*(45) = 85.166,77 $
Zur Verwendung von Konfidenzintervallen
Wenn Sie ein Regressionsmodell verwenden, um Vorhersagen über neue Beobachtungen zu treffen, wird der vom Regressionsmodell vorhergesagte Wert als Punktschätzung bezeichnet.
Obwohl die Punktschätzung unsere beste Schätzung des Werts der neuen Beobachtung darstellt, ist es unwahrscheinlich, dass sie genau mit dem Wert der neuen Beobachtung übereinstimmt.
Um diese Unsicherheit zu erfassen, können wir ein Konfidenzintervall erstellen – einen Wertebereich, der wahrscheinlich einen Populationsparameter mit einem bestimmten Konfidenzniveau enthält.
Anstatt beispielsweise vorherzusagen, dass eine neue Person 66,8 Zoll groß sein wird, können wir das folgende Konfidenzintervall erstellen:
95 %-Konfidenzintervall = [64,8 Zoll, 68,8 Zoll]
Wir würden dieses Intervall so interpretieren, dass wir zu 95 % sicher sind, dass die tatsächliche Größe dieser Person zwischen 64,8 Zoll und 68,8 Zoll liegt.
Vorsichtsmaßnahmen bei Vorhersagen
Beachten Sie die folgenden Punkte, wenn Sie ein Regressionsmodell zur Erstellung von Vorhersagen verwenden:
1. Verwenden Sie das Modell nur, um Vorhersagen innerhalb des Datenbereichs zu treffen, der zur Schätzung des Regressionsmodells verwendet wird.
Angenommen, wir passen ein Regressionsmodell unter Verwendung der Prädiktorvariablen „Gewicht“ an und das Gewicht der Personen in der Stichprobe, die wir zur Schätzung des Modells verwendet haben, liegt zwischen 120 und 180 Pfund.
Es wäre nicht sinnvoll, das Modell zur Schätzung der Größe einer Person mit einem Gewicht von 200 Pfund zu verwenden, da diese außerhalb des Bereichs der Prädiktorvariablen liegt, die wir zur Schätzung des Modells verwendet haben.
Es ist möglich, dass das Verhältnis zwischen Gewicht und Körpergröße außerhalb des Gewichtsbereichs von 120 bis 180 Pfund unterschiedlich ist. Wir sollten das Modell daher nicht verwenden, um die Größe einer Person mit einem Gewicht von 200 Pfund abzuschätzen.
2. Verwenden Sie das Modell nur, um Vorhersagen für die von Ihnen untersuchte Population zu treffen.
Angenommen, ein Ökonom zieht die Bevölkerung aus einer Stichprobe aller Menschen, die in einer bestimmten Stadt leben.
Wir sollten das angepasste Regressionsmodell nur verwenden, um das Jahreseinkommen von Personen in dieser Stadt vorherzusagen, da die gesamte Stichprobe, die zur Anpassung des Modells verwendet wurde, in dieser Stadt lebte.
Zusätzliche Ressourcen
Einführung in die einfache lineare Regression
Einführung in die multiple lineare Regression
Einführung in Konfidenzintervalle
Die vier Annahmen der linearen Regression