Jak obliczyć rmse w r

Przez Benjamin Anderson 29 lipca, 2023 Przewodnik 0 komentarzy

Pierwiastek błędu średniokwadratowego (RMSE) to miara, która mówi nam, jak daleko odbiegają średnio nasze przewidywane wartości od wartości obserwowanych w analizie regresji. Oblicza się go w następujący sposób:

RMSE = √[ Σ(P _ja – O _ja ) ² / n ]

Złoto:

Σ to fantazyjny symbol oznaczający „sumę”
_Pi jest przewidywaną wartością ^i-tej obserwacji w zbiorze danych
O _i jest obserwowaną wartością ^i-tej obserwacji w zbiorze danych
n to wielkość próbki

W tym samouczku wyjaśniono dwie metody, których można użyć do obliczenia RMSE w języku R.

Metoda 1: Napisz własną funkcję

Załóżmy, że mamy zbiór danych z kolumną zawierającą rzeczywiste wartości danych i kolumną zawierającą przewidywane wartości danych:

 #create dataset
data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
                   predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))

#view dataset
data

   actual predicted
1 34 37
2 37 40
3 44 46
4 47 44
5 48 46
6 48 50
7 46 45
8 43 44
9 32 34
10 27 30
11 26 22
12 24 23

Aby obliczyć RMSE, możemy skorzystać z następującej funkcji:

 #calculate RMSE
sqrt(mean((data$actual - data$predicted)^2))

[1] 2.43242

Średni błąd kwadratowy wynosi 2,43242 .

Metoda 2: Użyj pakietu

Możemy również obliczyć RMSE dla tego samego zbioru danych za pomocą funkcji rmse() z pakietu Metrics , która wykorzystuje następującą składnię:

rmse (rzeczywisty, planowany)

Złoto:

realne: prawdziwe wartości
przewidywane: przewidywane wartości

Oto składnia, której użylibyśmy w naszym przykładzie:

 #load Metrics package
library(Metrics)

calculate RMSE
rmse(data$actual, data$predicted)

[1] 2.43242

Średni błąd kwadratowy wynosi 2,43242 i jest zgodny z tym, co obliczyliśmy wcześniej za pomocą naszej własnej funkcji.

Jak interpretować RMSE

RMSE to przydatny sposób sprawdzenia, jak dobrze model regresji jest w stanie dopasować zbiór danych.

Im większy RMSE, tym większa różnica między wartościami przewidywanymi i obserwowanymi, co oznacza, że model regresji gorzej pasuje do danych. I odwrotnie, im mniejszy RMSE, tym lepiej model jest w stanie dopasować dane.

Szczególnie przydatne może być porównanie RMSE dwóch różnych modeli, aby sprawdzić, który model najlepiej pasuje do danych.

Dodatkowe zasoby

Kalkulator RMSE
Jak obliczyć MSE w R
Jak obliczyć MAPE w R

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej