Jak obliczyć rmse w r
Pierwiastek błędu średniokwadratowego (RMSE) to miara, która mówi nam, jak daleko odbiegają średnio nasze przewidywane wartości od wartości obserwowanych w analizie regresji. Oblicza się go w następujący sposób:
RMSE = √[ Σ(P ja – O ja ) 2 / n ]
Złoto:
- Σ to fantazyjny symbol oznaczający „sumę”
- Pi jest przewidywaną wartością i-tej obserwacji w zbiorze danych
- O i jest obserwowaną wartością i-tej obserwacji w zbiorze danych
- n to wielkość próbki
W tym samouczku wyjaśniono dwie metody, których można użyć do obliczenia RMSE w języku R.
Metoda 1: Napisz własną funkcję
Załóżmy, że mamy zbiór danych z kolumną zawierającą rzeczywiste wartości danych i kolumną zawierającą przewidywane wartości danych:
#create dataset data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24), predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23)) #view dataset data actual predicted 1 34 37 2 37 40 3 44 46 4 47 44 5 48 46 6 48 50 7 46 45 8 43 44 9 32 34 10 27 30 11 26 22 12 24 23
Aby obliczyć RMSE, możemy skorzystać z następującej funkcji:
#calculate RMSE
sqrt(mean((data$actual - data$predicted)^2))
[1] 2.43242
Średni błąd kwadratowy wynosi 2,43242 .
Metoda 2: Użyj pakietu
Możemy również obliczyć RMSE dla tego samego zbioru danych za pomocą funkcji rmse() z pakietu Metrics , która wykorzystuje następującą składnię:
rmse (rzeczywisty, planowany)
Złoto:
- realne: prawdziwe wartości
- przewidywane: przewidywane wartości
Oto składnia, której użylibyśmy w naszym przykładzie:
#load Metrics package library(Metrics) calculate RMSE rmse(data$actual, data$predicted) [1] 2.43242
Średni błąd kwadratowy wynosi 2,43242 i jest zgodny z tym, co obliczyliśmy wcześniej za pomocą naszej własnej funkcji.
Jak interpretować RMSE
RMSE to przydatny sposób sprawdzenia, jak dobrze model regresji jest w stanie dopasować zbiór danych.
Im większy RMSE, tym większa różnica między wartościami przewidywanymi i obserwowanymi, co oznacza, że model regresji gorzej pasuje do danych. I odwrotnie, im mniejszy RMSE, tym lepiej model jest w stanie dopasować dane.
Szczególnie przydatne może być porównanie RMSE dwóch różnych modeli, aby sprawdzić, który model najlepiej pasuje do danych.