Mse vs. rmse: którego wskaźnika należy użyć?


Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .

Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi.

Dwie metryki, których często używamy do ilościowego określenia dopasowania modelu do zbioru danych, to błąd średniokwadratowy (MSE) i błąd średniokwadratowy (RMSE), które oblicza się w następujący sposób:

MSE : Metryka, która informuje nas o średniej kwadratowej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy współczynnik MSE, tym lepiej model pasuje do zbioru danych.

MSE = Σ(ŷ ja – y ja ) 2 / n

Złoto:

  • Σ to symbol oznaczający „sumę”
  • ŷ i jest przewidywaną wartością i- tej obserwacji
  • y i jest wartością obserwowaną dla i-tej obserwacji
  • n to wielkość próbki

RMSE : Metryka, która informuje nas o pierwiastku kwadratowym średniej kwadratowej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.

Oblicza się go w następujący sposób:

RMSE = √ Σ(ŷ ja – y ja ) 2 / n

Złoto:

  • Σ to symbol oznaczający „sumę”
  • ŷ i jest przewidywaną wartością i- tej obserwacji
  • y i jest wartością obserwowaną dla i-tej obserwacji
  • n to wielkość próbki

Należy pamiętać, że formuły są prawie identyczne. W rzeczywistości błąd średniokwadratowy to po prostu pierwiastek kwadratowy błędu średniokwadratowego.

RMSE vs. MSE: Którego wskaźnika należy użyć?

Aby ocenić, jak dobrze model pasuje do zbioru danych, częściej używamy RMSE , ponieważ jest on mierzony w tych samych jednostkach, co zmienna odpowiedzi.

I odwrotnie, MSE mierzy się w jednostkach kwadratowych zmiennej odpowiedzi.

Aby to zilustrować, załóżmy, że używamy modelu regresji do przewidzenia, ile punktów zdobędzie 10 graczy w meczu koszykówki.

Poniższa tabela przedstawia punkty przewidywane przez model w porównaniu z rzeczywistymi punktami zdobytymi przez graczy:

Obliczamy błąd średniokwadratowy (MSE) w następujący sposób:

  • MSE = Σ(ŷ ja – y ja ) 2 / n
  • MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
  • MSE = 16

Pierwiastek błędu średniokwadratowego wynosi 16. Mówi nam to, że średnia kwadratowa różnicy między wartościami przewidywanymi przez model a wartościami rzeczywistymi wynosi 16.

Pierwiastek błędu średniokwadratowego (RMSE) byłby po prostu pierwiastkiem kwadratowym z MSE:

  • ADE = √ EQM
  • RMSE = √ 16
  • RMSE = 4

Średni błąd kwadratowy wynosi 4. Mówi nam to, że średnie odchylenie między przewidywanymi zdobytymi punktami a faktycznie zdobytymi punktami wynosi 4.

Należy zauważyć, że interpretacja błędu średniokwadratowego jest znacznie prostsza niż błędu średniokwadratowego, ponieważ mówimy o „zdobytych punktach”, a nie o „punktach zdobytych do kwadratu”.

Jak wykorzystać RMSE w praktyce

W praktyce zazwyczaj dopasowujemy modele regresji wielokrotnej do zbioru danych i obliczamy średni błąd kwadratowy (RMSE) każdego modelu.

Następnie wybieramy model o najniższej wartości RMSE jako model „najlepszy”, ponieważ to on daje przewidywania najbliższe wartościom rzeczywistym w zbiorze danych.

Należy pamiętać, że możemy również porównać wartości MSE każdego modelu, ale RMSE jest prostsze w interpretacji i dlatego jest częściej stosowane.

Dodatkowe zasoby

Wprowadzenie do wielokrotnej regresji liniowej
RMSE a R-kwadrat: jakiego wskaźnika należy użyć?
Kalkulator RMSE

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *