Jaka wartość jest uważana za dobrą rmse?


Jednym ze sposobów oceny, jak dobrze model regresji pasuje do zbioru danych, jest obliczenie błędu średniokwadratowego , który mówi nam średnią odległość między wartościami przewidywanymi modelu a rzeczywistymi wartościami zbioru danych. dane.

Wzór na znalezienie błędu średniokwadratowego, często w skrócie RMSE , jest następujący:

RMSE =Σ(P ja – O ja ) 2 / n

Złoto:

  • Σ to fantazyjny symbol oznaczający „sumę”
  • Pi jest przewidywaną wartością i-tej obserwacji w zbiorze danych
  • O i jest obserwowaną wartością i-tej obserwacji w zbiorze danych
  • n to wielkość próbki

Ludzie często zadają pytanie: jaka jest dobra wartość RMSE?

Krótka odpowiedź: to zależy .

Im niższy RMSE, tym lepiej dany model jest w stanie „dopasować” zbiór danych. Jednakże zakres zbioru danych, z którym pracujesz, jest ważny przy ustalaniu, czy dana wartość RMSE jest „niska”, czy nie.

Rozważmy na przykład następujące scenariusze:

Scenariusz 1: Chcielibyśmy zastosować model regresji do przewidzenia ceny domów w określonym mieście. Załóżmy, że model ma wartość RMSE wynoszącą 500 USD. Ponieważ typowy przedział cenowy domu wynosi od 70 000 do 300 000 dolarów, wartość RMSE jest wyjątkowo niska. Mówi nam to, że model jest w stanie dokładnie przewidzieć ceny nieruchomości.

Scenariusz 2: Załóżmy teraz, że chcemy użyć modelu regresji, aby przewidzieć, ile dana osoba wyda miesięcznie w określonym mieście. Załóżmy, że model ma wartość RMSE wynoszącą 500 USD. Jeśli typowy miesięczny zakres wydatków wynosi od 1500 do 4000 dolarów, wartość RMSE jest dość wysoka. To mówi nam, że model nie jest w stanie przewidzieć miesięcznych wydatków z dużą dokładnością.

Te proste przykłady pokazują, że nie ma uniwersalnej „dobrej” wartości RMSE. Wszystko zależy od zakresu wartości zbioru danych, z którym pracujesz.

Normalizacja wartości RMSE

Jednym ze sposobów lepszego zrozumienia, czy dana wartość RMSE jest „dobra”, jest jej normalizacja za pomocą następującego wzoru:

Znormalizowany RMSE = RMSE / (wartość maksymalna – wartość minimalna)

Daje to wartość z zakresu od 0 do 1, gdzie wartości bliższe 0 reprezentują modele lepiej dopasowane.

Załóżmy na przykład, że nasza wartość RMSE wynosi 500 USD, a nasz zakres wartości wynosi od 70 000 do 300 000 USD. Znormalizowaną wartość RMSE obliczylibyśmy w następujący sposób:

  • Znormalizowany RMSE = 500 USD / (300 000–70 000 USD) = 0,002

I odwrotnie, załóżmy, że nasza wartość RMSE wynosi 500 USD, a nasz zakres wartości wynosi od 1500 do 4000 USD. Znormalizowaną wartość RMSE obliczylibyśmy w następujący sposób:

  • Znormalizowany RMSE = 500 USD / (4000 USD – 1500 USD) = 0,2 .

Pierwsza znormalizowana wartość RMSE jest znacznie niższa, co wskazuje, że zapewnia znacznie lepsze dopasowanie do danych w porównaniu z drugą znormalizowaną wartością RMSE.

Porównanie RMSE pomiędzy modelami

Zamiast wybierać dowolną liczbę reprezentującą „dobrą” wartość RMSE, możemy po prostu porównać wartości RMSE wielu modeli.

Załóżmy na przykład, że dopasowujemy trzy różne modele regresji, aby przewidzieć ceny nieruchomości. Załóżmy, że trzy modele mają następujące wartości RMSE:

  • Model 1 RMSE: 550 dolarów
  • Model 2 RMSE: 480 dolarów
  • Model 3 RMSE: 1400 dolarów

Ponieważ wartość RMSE Modelu 2 jest najniższa, wybraliśmy Model 2 jako najlepszy model do przewidywania cen nieruchomości, ponieważ średnia odległość między cenami przewidywanymi a rzeczywistymi jest dla tego modelu najniższa.

Dodatkowe zasoby

Jak interpretować RMSE
Jak obliczyć RMSE w Excelu
Jak obliczyć RMSE w R
Jak obliczyć RMSE w Pythonie
Kalkulator RMSE

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *