Mse vs. rmse: welche metrik sollten sie verwenden?
Regressionsmodelle werden verwendet, um die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen zu quantifizieren.
Wann immer wir ein Regressionsmodell anpassen, möchten wir verstehen, wie gut das Modell die Werte der Prädiktorvariablen verwenden kann, um den Wert der Antwortvariablen vorherzusagen.
Zwei Metriken, die wir häufig verwenden, um zu quantifizieren, wie gut ein Modell zu einem Datensatz passt, sind der mittlere quadratische Fehler (MSE) und der mittlere quadratische Fehler (RMSE), die wie folgt berechnet werden:
MSE : Eine Metrik, die uns den quadratischen Mittelwert der Differenz zwischen vorhergesagten Werten und tatsächlichen Werten in einem Datensatz angibt. Je niedriger der MSE, desto besser passt ein Modell zu einem Datensatz.
MSE = Σ(ŷ i – y i ) 2 / n
Gold:
- Σ ist ein Symbol, das „Summe“ bedeutet
- ŷ i ist der vorhergesagte Wert für die i- te Beobachtung
- y i ist der beobachtete Wert für die i-te Beobachtung
- n ist die Stichprobengröße
RMSE : Eine Metrik, die uns die Quadratwurzel der quadratischen Mittelwertdifferenz zwischen den vorhergesagten Werten und den tatsächlichen Werten in einem Datensatz angibt. Je niedriger der RMSE, desto besser passt ein Modell zu einem Datensatz.
Es wird wie folgt berechnet:
RMSE = √ Σ(ŷ i – y i ) 2 / n
Gold:
- Σ ist ein Symbol, das „Summe“ bedeutet
- ŷ i ist der vorhergesagte Wert für die i- te Beobachtung
- y i ist der beobachtete Wert für die i-te Beobachtung
- n ist die Stichprobengröße
Beachten Sie, dass die Formeln nahezu identisch sind. Tatsächlich ist der mittlere quadratische Fehler nur die Quadratwurzel des mittleren quadratischen Fehlers.
RMSE vs. MSE: Welche Metrik sollten Sie verwenden?
Um zu bewerten, wie gut ein Modell zu einem Datensatz passt, verwenden wir häufiger RMSE, da dieser in denselben Einheiten wie die Antwortvariable gemessen wird.
Umgekehrt wird MSE in Quadrateinheiten der Antwortvariablen gemessen.
Um dies zu veranschaulichen, nehmen wir an, dass wir ein Regressionsmodell verwenden, um vorherzusagen, wie viele Punkte 10 Spieler in einem Basketballspiel erzielen werden.
Die folgende Tabelle zeigt die vom Modell vorhergesagten Punkte im Vergleich zu den tatsächlich von den Spielern erzielten Punkten:
Wir würden den mittleren quadratischen Fehler (MSE) wie folgt berechnen:
- MSE = Σ(ŷ i – y i ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- MSE = 16
Der quadratische Mittelwertfehler beträgt 16. Dies sagt uns, dass die quadratische Mittelwertdifferenz zwischen den vom Modell vorhergesagten Werten und den tatsächlichen Werten 16 beträgt.
Der mittlere quadratische Fehler (RMSE) wäre einfach die Quadratwurzel des MSE:
- ADE = √ EQM
- RMSE = √ 16
- RMSE = 4
Der mittlere quadratische Fehler beträgt 4. Dies sagt uns, dass die durchschnittliche Abweichung zwischen den vorhergesagten erzielten Punkten und den tatsächlich erzielten Punkten 4 beträgt.
Beachten Sie, dass die Interpretation des mittleren quadratischen Fehlers viel einfacher ist als die des mittleren quadratischen Fehlers, da wir von „erzielten Punkten“ und nicht von „erzielten Punkten im Quadrat“ sprechen.
Wie man RMSE in der Praxis nutzt
In der Praxis passen wir in der Regel mehrere Regressionsmodelle an einen Datensatz an und berechnen den quadratischen Mittelfehler (Root Mean Square Error, RMSE) jedes Modells.
Anschließend wählen wir das Modell mit dem niedrigsten RMSE-Wert als „bestes“ Modell aus, da es dasjenige ist, dessen Vorhersagen den tatsächlichen Werten im Datensatz am nächsten kommen.
Beachten Sie, dass wir auch die MSE-Werte jedes Modells vergleichen können, der RMSE jedoch einfacher zu interpretieren ist und daher häufiger verwendet wird.
Zusätzliche Ressourcen
Einführung in die multiple lineare Regression
RMSE vs. R-Quadrat: Welche Metrik sollten Sie verwenden?
RMSE-Rechner