Mae vs. rmse: którego wskaźnika należy użyć?
Modele regresji służą do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Ilekroć dopasowujemy model regresji, chcemy zrozumieć, jak dobrze model jest w stanie wykorzystać wartości zmiennych predykcyjnych do przewidzenia wartości zmiennej odpowiedzi.
Dwie metryki, których często używamy do ilościowego określenia dopasowania modelu do zbioru danych, to średni błąd bezwzględny (MAE) i pierwiastek błędu średniokwadratowego (RMSE), które oblicza się w następujący sposób:
MAE : Metryka, która mówi nam o średniej bezwzględnej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy MAE, tym lepiej model pasuje do zbioru danych.
MAE = 1/n * Σ|y i – ŷ i |
Złoto:
- Σ to symbol oznaczający „sumę”
- y i jest wartością obserwowaną dla i-tej obserwacji
- ŷ i jest przewidywaną wartością i- tej obserwacji
- n to wielkość próbki
RMSE : Metryka, która informuje nas o pierwiastku kwadratowym średniej kwadratowej różnicy między wartościami przewidywanymi a wartościami rzeczywistymi w zbiorze danych. Im niższy RMSE, tym lepiej model pasuje do zbioru danych.
Oblicza się go w następujący sposób:
RMSE = √ Σ(y i – ŷ ja ) 2 / n
Złoto:
- Σ to symbol oznaczający „sumę”
- ŷ i jest przewidywaną wartością i- tej obserwacji
- y i jest wartością obserwowaną dla i-tej obserwacji
- n to wielkość próbki
Przykład: Obliczanie RMSE i MAE
Załóżmy, że używamy modelu regresji, aby przewidzieć, ile punktów zdobędzie 10 graczy w meczu koszykówki.
Poniższa tabela przedstawia punkty przewidywane przez model w porównaniu z rzeczywistymi punktami zdobytymi przez graczy:
Korzystając z kalkulatora MAE, możemy obliczyć, że MAE wynosi 3,2.
Mówi nam to, że średnia bezwzględna różnica między wartościami przewidywanymi przez model a wartościami rzeczywistymi wynosi 3,2.
Używając kalkulatora RMSE , możemy obliczyć, że RMSE jest równe 4 .
To mówi nam, że pierwiastek kwadratowy średniej kwadratowej różnicy między przewidywanymi punktami zdobytymi a faktycznie zdobytymi punktami wynosi 4.
Należy zauważyć, że każda metryka daje nam wyobrażenie o typowej różnicy między wartością przewidywaną ustaloną przez model a rzeczywistą wartością w zbiorze danych, ale interpretacja każdej metryki jest nieco inna.
RMSE vs. MAE: Którego wskaźnika należy użyć?
Jeśli chcesz przypisać większą wagę obserwacjom, które są dalej od średniej (tj. jeśli odchylenie 20 jest ponad dwukrotnie większe niż odchylenie 10), lepiej jest użyć RMSE do pomiaru błędu, ponieważ RMSE jest bardziej wrażliwe na obserwacje dalej od średniej.
Jeśli jednak „przesunięcie” w wieku 20 jest dwa razy gorsze niż „przesunięcie” w wieku 10, wówczas lepiej jest użyć MAE.
Aby to zilustrować, załóżmy, że mamy gracza, który wyraźnie odbiega od normy pod względem liczby zdobytych punktów:
Korzystając ze wspomnianych wcześniej kalkulatorów online, możemy obliczyć MAE i RMSE jako:
- MA : 8
- RMSE : 16,4356
Należy zauważyć, że RMSE wzrasta znacznie bardziej niż MAE.
Dzieje się tak, ponieważ RMSE wykorzystuje w swoim wzorze kwadraty różnic, a kwadratowa różnica między zaobserwowaną wartością 76 a przewidywaną wartością 22 jest dość duża. Powoduje to znaczny wzrost wartości RMSE.
W praktyce zazwyczaj dopasowujemy wiele modeli regresji do zbioru danych i obliczamy tylko jedną z tych metryk dla każdego modelu.
Na przykład moglibyśmy dopasować trzy różne modele regresji i obliczyć RMSE dla każdego modelu. Wybralibyśmy wtedy model o najniższej wartości RMSE jako „najlepszy” model, ponieważ to on daje przewidywania najbliższe rzeczywistym wartościom w zbiorze danych.
W obu przypadkach upewnij się, że obliczyłeś tę samą metrykę dla każdego modelu. Na przykład nie obliczaj MAE dla jednego modelu i RMSE dla innego modelu, a następnie porównuj te dwa pomiary.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak obliczyć MAE przy użyciu różnych programów statystycznych:
Jak obliczyć średni błąd bezwzględny w programie Excel
Jak obliczyć średni błąd bezwzględny w R
Jak obliczyć średni błąd bezwzględny w Pythonie
Poniższe samouczki wyjaśniają, jak obliczyć RMSE przy użyciu różnych programów statystycznych:
Jak obliczyć średni błąd kwadratowy w programie Excel
Jak obliczyć błąd średniokwadratowy w R
Jak obliczyć średni błąd kwadratowy w Pythonie