Was gilt als guter rmse-wert?
Eine Möglichkeit zu bewerten, wie gut ein Regressionsmodell zu einem Datensatz passt, ist die Berechnung des mittleren quadratischen Fehlers , der uns den durchschnittlichen Abstand zwischen den vorhergesagten Werten des Modells und den tatsächlichen Werten des Datensatzes angibt. Daten.
Die Formel zum Ermitteln des mittleren quadratischen Fehlers, oft als RMSE abgekürzt, lautet:
RMSE = √ Σ(P i – O i ) 2 / n
Gold:
- Σ ist ein ausgefallenes Symbol, das „Summe“ bedeutet
- P i ist der vorhergesagte Wert für die i-te Beobachtung im Datensatz
- O i ist der beobachtete Wert für die i-te Beobachtung im Datensatz
- n ist die Stichprobengröße
Eine häufig gestellte Frage lautet: Was ist ein guter RMSE-Wert?
Die kurze Antwort: Es kommt darauf an .
Je niedriger der RMSE, desto besser kann ein bestimmtes Modell einen Datensatz „anpassen“. Der Bereich des Datensatzes, mit dem Sie arbeiten, ist jedoch wichtig, um festzustellen, ob ein bestimmter RMSE-Wert „niedrig“ ist oder nicht.
Betrachten Sie beispielsweise die folgenden Szenarien:
Szenario 1: Wir möchten ein Regressionsmodell verwenden, um den Preis von Häusern in einer bestimmten Stadt vorherzusagen. Angenommen, das Modell hat einen RMSE-Wert von 500 $. Da die typische Preisspanne für Eigenheime zwischen 70.000 und 300.000 US-Dollar liegt, ist dieser RMSE-Wert äußerst niedrig. Dies zeigt uns, dass das Modell in der Lage ist, Immobilienpreise genau vorherzusagen.
Szenario 2: Angenommen, wir möchten mithilfe eines Regressionsmodells vorhersagen, wie viel eine Person pro Monat in einer bestimmten Stadt ausgeben wird. Angenommen, das Modell hat einen RMSE-Wert von 500 $. Wenn die typische monatliche Ausgabenspanne zwischen 1.500 und 4.000 US-Dollar liegt, ist dieser RMSE-Wert ziemlich hoch. Dies zeigt uns, dass das Modell nicht in der Lage ist, die monatlichen Ausgaben mit großer Genauigkeit vorherzusagen.
Diese einfachen Beispiele zeigen, dass es keinen allgemeingültigen „guten“ RMSE-Wert gibt. Es hängt alles vom Wertebereich des Datensatzes ab, mit dem Sie arbeiten.
RMSE-Wertnormalisierung
Eine Möglichkeit, besser zu verstehen, ob ein bestimmter RMSE-Wert „gut“ ist, besteht darin, ihn mithilfe der folgenden Formel zu normalisieren:
Normalisierter RMSE = RMSE / (Maximalwert – Minimalwert)
Dies ergibt einen Wert zwischen 0 und 1, wobei Werte näher bei 0 besser passende Modelle darstellen.
Nehmen wir zum Beispiel an, unser RMSE-Wert beträgt 500 US-Dollar und unsere Wertespanne liegt zwischen 70.000 und 300.000 US-Dollar. Wir würden den normalisierten RMSE-Wert wie folgt berechnen:
- Normalisierter RMSE = 500 $ / (300.000 $ – 70.000 $) = 0,002
Nehmen wir umgekehrt an, dass unser RMSE-Wert 500 US-Dollar beträgt und unsere Wertspanne zwischen 1.500 und 4.000 US-Dollar liegt. Wir würden den normalisierten RMSE-Wert wie folgt berechnen:
- Normalisierter RMSE = 500 $ / (4.000 $ – 1.500 $) = 0,2 .
Der erste normalisierte RMSE-Wert ist viel niedriger, was darauf hindeutet, dass er im Vergleich zum zweiten normalisierten RMSE-Wert eine viel bessere Anpassung an die Daten bietet.
Vergleich von RMSE zwischen Modellen
Anstatt eine beliebige Zahl zu wählen, um einen „guten“ RMSE-Wert darzustellen, können wir einfach die RMSE-Werte mehrerer Modelle vergleichen.
Angenommen, wir passen drei verschiedene Regressionsmodelle an, um Immobilienpreise vorherzusagen. Gehen Sie davon aus, dass die drei Modelle die folgenden RMSE-Werte haben:
- Modell 1 RMSE: 550 $
- Modell 2 RMSE: 480 $
- Modell 3 RMSE: 1.400 $
Da der RMSE-Wert von Modell 2 am niedrigsten ist, würden wir Modell 2 als bestes Modell zur Vorhersage von Immobilienpreisen auswählen, da der durchschnittliche Abstand zwischen vorhergesagten und tatsächlichen Preisen bei diesem Modell am niedrigsten ist.
Zusätzliche Ressourcen
So interpretieren Sie den RMSE
So berechnen Sie den RMSE in Excel
So berechnen Sie RMSE in R
So berechnen Sie RMSE in Python
RMSE-Rechner