Mse vs. rmse: którego wskaźnika należy użyć?
Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi.
Dwie metryki, których często używamy do ilościowego określenia dopasowania modelu do zbioru danych, to błąd średniokwadratowy (MSE) i błąd średniokwadratowy (RMSE), które oblicza się w następujący sposób:
MSE : Metryka, która informuje nas o średniej kwadratowej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy współczynnik MSE, tym lepiej model pasuje do zbioru danych.
MSE = Σ(ŷ ja – y ja ) 2 / n
Złoto:
- Σ to symbol oznaczający „sumę”
- ŷ i jest przewidywaną wartością i- tej obserwacji
- y i jest wartością obserwowaną dla i-tej obserwacji
- n to wielkość próbki
RMSE : Metryka, która informuje nas o pierwiastku kwadratowym średniej kwadratowej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.
Oblicza się go w następujący sposób:
RMSE = √ Σ(ŷ ja – y ja ) 2 / n
Złoto:
- Σ to symbol oznaczający „sumę”
- ŷ i jest przewidywaną wartością i- tej obserwacji
- y i jest wartością obserwowaną dla i-tej obserwacji
- n to wielkość próbki
Należy pamiętać, że formuły są prawie identyczne. W rzeczywistości błąd średniokwadratowy to po prostu pierwiastek kwadratowy błędu średniokwadratowego.
RMSE vs. MSE: Którego wskaźnika należy użyć?
Aby ocenić, jak dobrze model pasuje do zbioru danych, częściej używamy RMSE , ponieważ jest on mierzony w tych samych jednostkach, co zmienna odpowiedzi.
I odwrotnie, MSE mierzy się w jednostkach kwadratowych zmiennej odpowiedzi.
Aby to zilustrować, załóżmy, że używamy modelu regresji do przewidzenia, ile punktów zdobędzie 10 graczy w meczu koszykówki.
Poniższa tabela przedstawia punkty przewidywane przez model w porównaniu z rzeczywistymi punktami zdobytymi przez graczy:
Obliczamy błąd średniokwadratowy (MSE) w następujący sposób:
- MSE = Σ(ŷ ja – y ja ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- MSE = 16
Pierwiastek błędu średniokwadratowego wynosi 16. Mówi nam to, że średnia kwadratowa różnicy między wartościami przewidywanymi przez model a wartościami rzeczywistymi wynosi 16.
Pierwiastek błędu średniokwadratowego (RMSE) byłby po prostu pierwiastkiem kwadratowym z MSE:
- ADE = √ EQM
- RMSE = √ 16
- RMSE = 4
Średni błąd kwadratowy wynosi 4. Mówi nam to, że średnie odchylenie między przewidywanymi zdobytymi punktami a faktycznie zdobytymi punktami wynosi 4.
Należy zauważyć, że interpretacja błędu średniokwadratowego jest znacznie prostsza niż błędu średniokwadratowego, ponieważ mówimy o „zdobytych punktach”, a nie o „punktach zdobytych do kwadratu”.
Jak wykorzystać RMSE w praktyce
W praktyce zazwyczaj dopasowujemy modele regresji wielokrotnej do zbioru danych i obliczamy średni błąd kwadratowy (RMSE) każdego modelu.
Następnie wybieramy model o najniższej wartości RMSE jako model „najlepszy”, ponieważ to on daje przewidywania najbliższe wartościom rzeczywistym w zbiorze danych.
Należy pamiętać, że możemy również porównać wartości MSE każdego modelu, ale RMSE jest prostsze w interpretacji i dlatego jest częściej stosowane.
Dodatkowe zasoby
Wprowadzenie do wielokrotnej regresji liniowej
RMSE a R-kwadrat: jakiego wskaźnika należy użyć?
Kalkulator RMSE