Rmse vs. r-quadrat: welche metrik sollten sie verwenden?
Regressionsmodelle werden verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.
Wann immer wir ein Regressionsmodell anpassen, möchten wir verstehen, wie gut das Modell zu den Daten „passt“. Mit anderen Worten: Wie gut ist das Modell in der Lage, die Werte der Prädiktorvariablen zu nutzen, um den Wert der Antwortvariablen vorherzusagen?
Zwei Metriken, die Statistiker häufig verwenden, um zu quantifizieren, wie gut ein Modell zu einem Datensatz passt, sind der mittlere quadratische Fehler (RMSE) und das R-Quadrat ( R2 ), die wie folgt berechnet werden:
RMSE : eine Metrik, die uns sagt, wie weit die vorhergesagten Werte im Durchschnitt von den beobachteten Werten in einem Datensatz entfernt sind. Je niedriger der RMSE, desto besser passt ein Modell zu einem Datensatz.
Es wird wie folgt berechnet:
RMSE = √ Σ(P i – O i ) 2 / n
Gold:
- Σ ist ein Symbol, das „Summe“ bedeutet
- P i ist der vorhergesagte Wert für die i-te Beobachtung
- O i ist der beobachtete Wert für die i-te Beobachtung
- n ist die Stichprobengröße
R 2 : Eine Metrik, die uns sagt, wie viel der Varianz in der Antwortvariablen eines Regressionsmodells durch die Prädiktorvariablen erklärt werden kann. Dieser Wert liegt zwischen 0 und 1. Je höher der R2- Wert, desto besser passt das Modell zu einem Datensatz.
Es wird wie folgt berechnet:
R2 = 1 – (RSS/TSS)
Gold:
- RSS stellt die Summe der Quadrate der Residuen dar
- TSS stellt die Gesamtsumme der Quadrate dar
RMSE vs. R 2 : Welche Metrik sollten Sie verwenden?
Bei der Bewertung der Anpassung eines Modells an einen Datensatz ist es sinnvoll, sowohl den RMSE-Wert als auch den R2 – Wert zu berechnen, da jede Metrik etwas anderes sagt.
Einerseits gibt uns RMSE den typischen Abstand zwischen dem vom Regressionsmodell vorhergesagten Wert und dem wahren Wert an.
Andererseits sagt uns R 2 , inwieweit die Prädiktorvariablen die Variation der Antwortvariablen erklären können.
Angenommen, wir haben den folgenden Datensatz, der Informationen über Häuser in einer bestimmten Stadt anzeigt:
Nehmen wir nun an, wir möchten die Quadratmeterzahl, die Anzahl der Badezimmer und die Anzahl der Schlafzimmer verwenden, um den Preis eines Hauses vorherzusagen.
Wir können das folgende Regressionsmodell anpassen:
Preis = β 0 + β 1 (Quadratfläche) + β 2 (# Badezimmer) + β 3 (# Schlafzimmer)
Angenommen, wir passen dieses Modell an und berechnen dann die folgenden Metriken, um die Anpassungsgüte des Modells zu bewerten:
- RMSE : 14,342
- R2 : 0,856
Der RMSE- Wert sagt uns, dass die durchschnittliche Differenz zwischen dem prognostizierten Hauspreis des Modells und dem tatsächlichen Hauspreis 14.342 $ beträgt.
Der R2 -Wert sagt uns, dass die Prädiktorvariablen des Modells (Quadratmeterzahl, Anzahl der Badezimmer und Anzahl der Schlafzimmer) 85,6 % der Schwankungen der Immobilienpreise erklären können.
Um festzustellen, ob diese Werte „gut“ sind oder nicht, können wir diese Messungen mit alternativen Modellen vergleichen.
Angenommen, wir passen ein anderes Regressionsmodell an, das einen anderen Satz von Prädiktorvariablen verwendet, und berechnen die folgenden Metriken für dieses Modell:
- RMSE : 19,355
- R2 : 0,765
Wir können sehen, dass der RMSE-Wert dieses Modells höher ist als der des Vorgängermodells. Es ist auch zu erkennen, dass der R 2 -Wert dieses Modells niedriger ist als der des Vorgängermodells. Dies zeigt uns, dass dieses Modell weniger gut zu den Daten passt als das Vorgängermodell.
Zusammenfassung
Hier sind die wichtigsten Punkte, die in diesem Artikel angesprochen werden:
- RMSE und R 2 quantifizieren, wie gut ein Regressionsmodell zu einem Datensatz passt.
- Der RMSE sagt uns, wie gut ein Regressionsmodell den Wert der Antwortvariablen in absoluten Zahlen vorhersagen kann, während R 2 uns sagt, wie gut ein Modell den Wert der Antwortvariablen in Prozent ausgedrückt vorhersagen kann.
- Es ist nützlich, sowohl den RMSE als auch den R2 für ein bestimmtes Modell zu berechnen, da uns jede Metrik nützliche Informationen liefert.
Zusätzliche Ressourcen
Einführung in die multiple lineare Regression
R vs. R-Quadrat: Was ist der Unterschied?
Was ist ein guter R-Quadrat-Wert?