So interpretieren sie das angepasste r-quadrat (mit beispielen)
Wenn wir lineare Regressionsmodelle anpassen, berechnen wir häufig den R-Quadrat- Wert des Modells.
Der R-Quadrat-Wert ist der Anteil der Varianz der Antwortvariablen , der durch die Prädiktorvariablen im Modell erklärt werden kann.
Der Wert von R im Quadrat kann zwischen 0 und 1 variieren, wobei:
- Ein Wert von 0 gibt an, dass die Antwortvariable überhaupt nicht durch die Prädiktorvariablen erklärt werden kann.
- Ein Wert von 1 gibt an, dass die Antwortvariable perfekt durch die Prädiktorvariablen erklärt werden kann.
Obwohl diese Metrik häufig verwendet wird, um zu bewerten, wie gut ein Regressionsmodell zu einem Datensatz passt, hat sie einen gravierenden Nachteil:
Der Nachteil von R-Quadrat:
Das R-Quadrat erhöht sich immer, wenn dem Regressionsmodell eine neue Prädiktorvariable hinzugefügt wird.
Selbst wenn eine neue Prädiktorvariable fast keine Beziehung zur Antwortvariablen hat, erhöht sich der R-Quadrat-Wert des Modells, wenn auch nur um einen geringen Betrag.
Aus diesem Grund ist es möglich, dass ein Regressionsmodell mit einer großen Anzahl von Prädiktorvariablen einen hohen R-Quadrat-Wert aufweist, selbst wenn das Modell nicht gut zu den Daten passt.
Glücklicherweise gibt es eine Alternative zum R-Quadrat, das sogenannte angepasste R-Quadrat .
Das angepasste R-Quadrat ist eine modifizierte Version des R-Quadrats, die die Anzahl der Prädiktoren in einem Regressionsmodell berücksichtigt.
Es wird wie folgt berechnet:
Angepasstes R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Gold:
- R 2 : Das R 2 des Modells
- n : Die Anzahl der Beobachtungen
- k : Die Anzahl der Prädiktorvariablen
Da das R-Quadrat immer zunimmt, wenn Sie Prädiktoren zu einem Modell hinzufügen, kann Ihnen das angepasste R-Quadrat Aufschluss darüber geben, wie nützlich ein Modell ist, angepasst an die Anzahl der Prädiktoren in einem Modell .
Der Vorteil des angepassten R-Quadrats:
Das angepasste R-Quadrat sagt uns, wie gut ein Satz von Prädiktorvariablen die Variation in der Antwortvariablen erklären kann, angepasst an die Anzahl der Prädiktoren in einem Modell .
Aufgrund der Art der Berechnung kann das angepasste R-Quadrat verwendet werden, um die Anpassung von Regressionsmodellen mit einer unterschiedlichen Anzahl von Prädiktorvariablen zu vergleichen.
Um das angepasste R-Quadrat besser zu verstehen, sehen Sie sich das folgende Beispiel an.
Beispiel: Angepasstes R-Quadrat in Regressionsmodellen verstehen
Angenommen, ein Professor sammelt Daten über die Studenten in seiner Klasse und passt das folgende Regressionsmodell an, um zu verstehen, wie sich die Lernstunden und die aktuelle Note im Unterricht auf die Note auswirken, die ein Student bei der Abschlussprüfung erhält.
Prüfungsergebnis = β 0 + β 1 (Lernstunden) + β 2 (aktuelle Note)
Nehmen wir an, dieses Regressionsmodell verfügt über die folgenden Metriken:
- R im Quadrat: 0,955
- Bereinigtes R-Quadrat: 0,946
Angenommen, der Lehrer beschließt, für jeden Schüler Daten zu einer anderen Variablen zu sammeln: der Schuhgröße.
Obwohl diese Variable keinen Zusammenhang mit der Abschlussnote der Prüfung haben sollte, beschließt er, das folgende Regressionsmodell anzupassen:
Prüfungsergebnis = β 0 + β 1 (Lernstunden) + β 2 (aktuelles Jahr) + β 3 (Schuhgröße)
Nehmen wir an, dieses Regressionsmodell verfügt über die folgenden Metriken:
- R im Quadrat: 0,965
- Bereinigtes R-Quadrat: 0,902
Wenn wir uns nur die R-Quadrat- Werte für jedes dieser beiden Regressionsmodelle ansehen würden, würden wir zu dem Schluss kommen, dass das zweite Modell besser zu verwenden ist, da es einen höheren R-Quadrat-Wert hat!
Wenn wir uns jedoch die angepassten R-Quadrat- Werte ansehen, kommen wir zu einem anderen Schluss: Es ist besser, das erste Modell zu verwenden, da es einen höheren angepassten R-Quadrat-Wert hat.
Das zweite Modell hat nur einen höheren R-Quadrat-Wert, weil es mehr Prädiktorvariablen als das erste Modell hat.
Allerdings war die von uns hinzugefügte Prädiktorvariable (Schuhgröße) ein schlechter Prädiktor für das Ergebnis der Abschlussprüfung, sodass das Modell durch den angepassten R-Quadrat-Wert für das Hinzufügen dieser Prädiktorvariablen benachteiligt wurde.
Dieses Beispiel veranschaulicht, warum das angepasste R-Quadrat eine bessere Metrik ist, wenn die Anpassung von Regressionsmodellen mit einer unterschiedlichen Anzahl von Prädiktorvariablen verglichen wird.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie angepasste R-Quadrat-Werte mit unterschiedlicher Statistiksoftware berechnet werden:
So berechnen Sie das angepasste R-Quadrat in R
So berechnen Sie das angepasste R-Quadrat in Excel
So berechnen Sie das angepasste R-Quadrat in Python