Как рассчитать rmse в r


Среднеквадратическая ошибка (RMSE) — это показатель, который говорит нам, насколько в среднем далеки наши прогнозируемые значения от наблюдаемых значений в регрессионном анализе. Он рассчитывается следующим образом:

RMSE знак равно √[ Σ(P i – O i ) 2 / n ]

Золото:

  • Σ — причудливый символ, означающий «сумма».
  • Pi — прогнозируемое значение для i-го наблюдения в наборе данных.
  • O i — наблюдаемое значение для i-го наблюдения в наборе данных.
  • n — размер выборки

В этом руководстве объясняются два метода, которые можно использовать для расчета RMSE в R.

Способ 1: Напишите свою собственную функцию

Предположим, у нас есть набор данных со столбцом, содержащим фактические значения данных, и столбцом, содержащим прогнозируемые значения данных:

 #create dataset
data <- data.frame(actual=c(34, 37, 44, 47, 48, 48, 46, 43, 32, 27, 26, 24),
                   predicted=c(37, 40, 46, 44, 46, 50, 45, 44, 34, 30, 22, 23))

#view dataset
data

   actual predicted
1 34 37
2 37 40
3 44 46
4 47 44
5 48 46
6 48 50
7 46 45
8 43 44
9 32 34
10 27 30
11 26 22
12 24 23

Для расчета RMSE мы можем использовать следующую функцию:

 #calculate RMSE
sqrt(mean((data$actual - data$predicted)^2))

[1] 2.43242

Среднеквадратическая ошибка составляет 2,43242 .

Способ 2. Используйте пакет.

Мы также могли бы вычислить RMSE для того же набора данных, используя функцию rmse() из пакета Metrics , которая использует следующий синтаксис:

среднеквадратичное значение (фактическое, запланированное)

Золото:

  • реальные: реальные ценности
  • предсказано: прогнозируемые значения

Вот синтаксис, который мы будем использовать в нашем примере:

 #load Metrics package
library(Metrics)

calculate RMSE
rmse(data$actual, data$predicted)

[1] 2.43242

Среднеквадратическая ошибка равна 2,43242 , что соответствует тому, что мы рассчитали ранее с помощью нашей собственной функции.

Как интерпретировать RMSE

RMSE — полезный способ увидеть, насколько хорошо модель регрессии соответствует набору данных.

Чем больше RMSE, тем больше разница между прогнозируемыми и наблюдаемыми значениями, а это означает, что регрессионная модель хуже соответствует данным. И наоборот, чем меньше RMSE, тем лучше модель соответствует данным.

Может быть особенно полезно сравнить RMSE двух разных моделей, чтобы увидеть, какая модель лучше всего соответствует данным.

Дополнительные ресурсы

Калькулятор RMSE
Как рассчитать MSE в R
Как рассчитать MAPE в R

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *