So berechnen sie residuen in der regressionsanalyse


Die einfache lineare Regression ist eine statistische Methode, mit der Sie die Beziehung zwischen zwei Variablen x und y verstehen können.

Eine Variable x wird als Prädiktorvariable bezeichnet. Die andere Variable, y , wird als Antwortvariable bezeichnet.

Angenommen, wir haben den folgenden Datensatz mit dem Gewicht und der Größe von sieben Personen:

Einfache lineare Regression

Das Gewicht sei die Prädiktorvariable und die Körpergröße die Antwortvariable.

Wenn wir diese beiden Variablen mithilfe eines Streudiagramms grafisch darstellen , mit Gewicht auf der x-Achse und Höhe auf der y-Achse, würde es wie folgt aussehen:

Aus dem Streudiagramm können wir deutlich erkennen, dass mit zunehmendem Gewicht tendenziell auch die Körpergröße zunimmt. Um diese Beziehung zwischen Gewicht und Körpergröße jedoch tatsächlich zu quantifizieren , müssen wir eine lineare Regression verwenden.

Mithilfe der linearen Regression können wir die Linie finden, die am besten zu unseren Daten „passt“:

Die Formel für diese Best-Fit-Linie lautet:

ŷ = b 0 + b 1 x

Dabei ist ŷ der vorhergesagte Wert der Antwortvariablen, b 0 der Achsenabschnitt, b 1 der Regressionskoeffizient und x der Wert der Prädiktorvariablen.

In diesem Beispiel ist die am besten passende Zeile:

Größe = 32,783 + 0,2001*(Gewicht)

So berechnen Sie Residuen

Beachten Sie, dass die Datenpunkte in unserem Streudiagramm nicht immer genau der Linie der besten Anpassung entsprechen:

Diese Differenz zwischen dem Datenpunkt und der Linie wird als Residuum bezeichnet. Für jeden Datenpunkt können wir das Residuum dieses Punkts berechnen, indem wir die Differenz zwischen seinem wahren Wert und dem vorhergesagten Wert aus der Linie der besten Anpassung ermitteln.

Beispiel 1: Berechnung eines Residuums

Erinnern Sie sich beispielsweise an das Gewicht und die Größe der sieben Personen in unserem Datensatz:

Einfache lineare Regression

Das erste Individuum wiegt 140 Pfund. und eine Höhe von 60 Zoll.

Um die erwartete Größe dieser Person herauszufinden, können wir ihr Gewicht in die Gleichung für die beste Anpassung einsetzen:

Größe = 32,783 + 0,2001*(Gewicht)

Somit beträgt die vorhergesagte Größe dieser Person:

Höhe = 32,783 + 0,2001*(140)

Höhe = 60,797 Zoll

Das Residuum für diesen Datenpunkt beträgt also 60 – 60,797 = -0,797 .

Beispiel 2: Berechnung eines Residuums

Wir können genau den gleichen Prozess wie oben verwenden, um das Residuum für jeden Datenpunkt zu berechnen. Berechnen wir zum Beispiel das Residuum für die zweite Person in unserem Datensatz:

Einfache lineare Regression

Die zweite Person wiegt 155 Pfund. und eine Höhe von 62 Zoll.

Um die erwartete Größe dieser Person herauszufinden, können wir ihr Gewicht in die Gleichung der besten Anpassung einsetzen:

Größe = 32,783 + 0,2001*(Gewicht)

Somit beträgt die vorhergesagte Größe dieser Person:

Höhe = 32,783 + 0,2001*(155)

Höhe = 63,7985 Zoll

Das Residuum für diesen Datenpunkt beträgt also 62 – 63,7985 = -1,7985 .

Berechnen Sie alle Residuen

Mit der gleichen Methode wie in den beiden vorherigen Beispielen können wir die Residuen für jeden Datenpunkt berechnen:

Beachten Sie, dass einige Residuen positiv und andere negativ sind. Wenn wir alle Residuen addieren, beträgt ihre Summe Null.

Dies liegt daran, dass die lineare Regression die Linie findet, die das Gesamtquadrat der Residuen minimiert, weshalb die Linie perfekt durch die Daten verläuft, wobei einige Datenpunkte über der Linie und andere unter der Linie liegen.

Rückstände ansehen

Denken Sie daran, dass ein Residuum einfach der Abstand zwischen dem tatsächlichen Wert der Daten und dem durch die am besten angepasste Regressionslinie vorhergesagten Wert ist. So sehen diese Abstände in einer Punktwolke visuell aus:

Beachten Sie, dass einige Residuen größer sind als andere. Darüber hinaus sind einige Residuen positiv und andere negativ, wie bereits erwähnt.

Einen Restpfad erstellen

Bei der Berechnung der Residuen geht es darum, zu sehen, wie gut die Regressionslinie zu den Daten passt.

Größere Residuen weisen darauf hin, dass die Regressionslinie nicht gut zu den Daten passt, d. h. die tatsächlichen Datenpunkte entsprechen nicht der Regressionslinie.

Kleinere Residuen weisen darauf hin, dass die Regressionslinie besser zu den Daten passt, d. h. die tatsächlichen Datenpunkte liegen näher an der Regressionslinie.

Ein nützlicher Plottyp zur Visualisierung aller Residuen auf einmal ist ein Residuenplot. Ein Residuendiagramm ist eine Art Diagramm, das vorhergesagte Werte gegenüber Residuen für ein Regressionsmodell anzeigt.

Diese Art von Diagramm wird häufig verwendet, um zu bewerten, ob ein lineares Regressionsmodell für einen bestimmten Datensatz geeignet ist oder nicht, und um die Heteroskedastizität der Residuen zu überprüfen.

Sehen Sie sich dieses Tutorial an, um zu erfahren, wie Sie in Excel ein Residuendiagramm für ein einfaches lineares Regressionsmodell erstellen.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert