Den standardfehler der regression verstehen


Wenn wir ein Regressionsmodell an einen Datensatz anpassen, interessiert uns oft, wie gut das Regressionsmodell zum Datensatz „passt“. Zwei häufig verwendete Metriken zur Messung der Anpassungsgüte sind das R-Quadrat ( R2 ) und der Standardfehler der Regression , oft mit S bezeichnet.

In diesem Tutorial wird erklärt, wie der Standardfehler der Regression (S) zu interpretieren ist und warum er nützlichere Informationen liefern kann als R 2 .

Standardfehler versus R-Quadrat in der Regression

Angenommen, wir haben einen einfachen Datensatz, der zeigt, wie viele Stunden pro Tag 12 Schüler einen Monat lang vor einer wichtigen Prüfung gelernt haben, sowie ihre Prüfungsergebnisse:

Wenn wir in Excel ein einfaches lineares Regressionsmodell an diesen Datensatz anpassen, erhalten wir das folgende Ergebnis:

R im Quadrat ist der Anteil der Varianz in der Antwortvariablen, der durch die Prädiktorvariable erklärt werden kann. In diesem Fall lassen sich 65,76 % der Varianz der Prüfungsergebnisse durch die Anzahl der Lernstunden erklären.

Der Standardfehler der Regression ist der durchschnittliche Abstand zwischen den beobachteten Werten und der Regressionsgeraden. In diesem Fall weichen die beobachteten Werte im Durchschnitt um 4,89 Einheiten von der Regressionsgeraden ab.

Wenn wir die tatsächlichen Datenpunkte mit der Regressionsgeraden darstellen, können wir dies deutlicher sehen:

Beachten Sie, dass einige Beobachtungen sehr nahe an der Regressionslinie liegen, andere jedoch nicht. Doch im Durchschnitt weichen die beobachteten Werte um 4,19 Einheiten von der Regressionsgeraden ab.

Der Standardfehler der Regression ist besonders nützlich, da er zur Bewertung der Genauigkeit von Vorhersagen verwendet werden kann. Ungefähr 95 % der Beobachtungen sollten innerhalb von +/- zwei Standardfehlern der Regression liegen, was eine schnelle Annäherung an ein 95 %-Vorhersageintervall darstellt.

Wenn wir mithilfe des Regressionsmodells Vorhersagen treffen möchten, ist der Standardfehler der Regression möglicherweise ein nützlicheres Maß als das R-Quadrat, da es uns eine Vorstellung davon gibt, wie genau unsere Vorhersagen in Einheiten sind.

Um zu veranschaulichen, warum der Standardfehler der Regression ein nützlicheres Maß für die Beurteilung der „Passung“ eines Modells sein kann, betrachten wir einen weiteren Beispieldatensatz, der zeigt, wie viele Stunden täglich 12 Schüler einen Monat lang vor einer wichtigen Prüfung gelernt haben ihr Prüfungsergebnis:

Beachten Sie, dass dies genau derselbe Datensatz wie zuvor ist, außer dass alle S-Werte halbiert sind . Somit lernten die Studierenden in diesem Datensatz genau die Hälfte der Zeit wie die Studierenden im vorherigen Datensatz und erhielten genau die Hälfte der Prüfungsnote.

Wenn wir in Excel ein einfaches lineares Regressionsmodell an diesen Datensatz anpassen, erhalten wir das folgende Ergebnis:

Beachten Sie, dass das R-Quadrat von 65,76 % genau das gleiche ist wie im vorherigen Beispiel.

Der Standardfehler der Regression beträgt jedoch 2,095 , was genau der Hälfte des Standardfehlers der Regression im vorherigen Beispiel entspricht.

Wenn wir die tatsächlichen Datenpunkte mit der Regressionsgeraden darstellen, können wir dies deutlicher sehen:

Beachten Sie, dass die Beobachtungen viel enger um die Regressionslinie herum gruppiert sind. Im Durchschnitt liegen die beobachteten Werte 2.095 Einheiten von der Regressionsgeraden entfernt.

Obwohl also beide Regressionsmodelle ein R-Quadrat von 65,76 % haben, wissen wir, dass das zweite Modell genauere Vorhersagen liefern würde, da es einen geringeren Regressionsstandardfehler aufweist.

Die Vorteile der Verwendung von Standardfehlern

Der Standardfehler der Regression (S) ist oft nützlicher zu kennen als das R-Quadrat des Modells, da es uns die tatsächlichen Einheiten liefert. Wenn wir ein Regressionsmodell zur Erstellung von Vorhersagen verwenden möchten, kann S uns sehr leicht sagen, ob ein Modell genau genug ist, um für Vorhersagezwecke verwendet zu werden.

Angenommen, wir möchten ein 95 %-Vorhersageintervall erstellen, in dem wir Prüfungsergebnisse mit einer Genauigkeit von 6 Punkten vom tatsächlichen Ergebnis vorhersagen können.

Unser erstes Modell hat ein R-Quadrat von 65,76 %, aber das sagt uns nichts über die Genauigkeit unseres Vorhersageintervalls. Glücklicherweise wissen wir auch, dass das erste Modell einen S von 4,19 hat. Das bedeutet, dass ein 95 %-Vorhersageintervall ungefähr 2*4,19 = +/- 8,38 Einheiten breit wäre, was für unser Vorhersageintervall zu breit ist.

Unser zweites Modell hat ebenfalls ein R-Quadrat von 65,76 %, aber auch das sagt uns nichts über die Genauigkeit unseres Vorhersageintervalls. Wir wissen jedoch, dass das zweite Modell einen S von 2,095 hat. Das bedeutet, dass ein 95 %-Vorhersageintervall ungefähr 2*2,095 = +/- 4,19 Einheiten breit wäre, was weniger als 6 und daher genau genug ist, um zur Erstellung von Vorhersageintervallen verwendet zu werden.

Weiterführende Literatur

Einführung in die einfache lineare Regression
Was ist ein guter R-Quadrat-Wert?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert