Мсэ против. rmse: какую метрику следует использовать?


Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Всякий раз, когда мы подгоняем модель регрессии, мы хотим понять, насколько хорошо модель может использовать значения переменных-предикторов для прогнозирования значения переменной отклика.

Два показателя, которые мы часто используем для количественной оценки того, насколько хорошо модель соответствует набору данных, — это среднеквадратическая ошибка (MSE) и среднеквадратическая ошибка (RMSE), которые рассчитываются следующим образом:

MSE : показатель, который сообщает нам среднеквадратическую разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже MSE, тем лучше модель соответствует набору данных.

MSE = Σ(ŷ i – y i ) 2 / n

Золото:

  • Σ — символ, означающий «сумма».
  • ŷ i — прогнозируемое значение для i- го наблюдения
  • y i — наблюдаемое значение для i-го наблюдения
  • n — размер выборки

RMSE : показатель, который сообщает нам квадратный корень из среднеквадратической разницы между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

RMSE = √ Σ(ŷ i – y i ) 2 / n

Золото:

  • Σ — символ, означающий «сумма».
  • ŷ i — прогнозируемое значение для i- го наблюдения
  • y i — наблюдаемое значение для i-го наблюдения
  • n — размер выборки

Обратите внимание, что формулы практически идентичны. Фактически, среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.

RMSE против. MSE: какой показатель следует использовать?

Чтобы оценить, насколько хорошо модель соответствует набору данных, мы чаще используем RMSE , поскольку оно измеряется в тех же единицах, что и переменная ответа.

И наоборот, MSE измеряется в квадратных единицах переменной отклика.

Чтобы проиллюстрировать это, предположим, что мы используем регрессионную модель, чтобы предсказать, сколько очков наберут 10 игроков в баскетбольном матче.

В следующей таблице показаны очки, предсказанные моделью, в сравнении с фактическими очками, набранными игроками:

Мы могли бы рассчитать среднеквадратическую ошибку (MSE) следующим образом:

  • MSE = Σ(ŷ i – y i ) 2 / n
  • СКО = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
  • СКО = 16

Среднеквадратическая ошибка равна 16. Это говорит нам о том, что среднеквадратическая разница между значениями, предсказанными моделью, и фактическими значениями равна 16.

Среднеквадратическая ошибка (RMSE) будет просто квадратным корнем из MSE:

  • АДЕ = √ EQM
  • СКО = √ 16
  • СКО = 4

Среднеквадратическая ошибка равна 4. Это говорит нам о том, что среднее отклонение между прогнозируемыми и фактически набранными баллами равно 4.

Обратите внимание, что интерпретировать среднеквадратическую ошибку намного проще, чем среднеквадратическую ошибку, поскольку мы говорим о «набранных баллах», а не о «квадратичных баллах».

Как использовать RMSE на практике

На практике мы обычно подгоняем несколько моделей регрессии к набору данных и вычисляем среднеквадратическую ошибку (RMSE) каждой модели.

Затем мы выбираем модель с наименьшим значением RMSE в качестве «лучшей» модели, поскольку именно она делает прогнозы наиболее близкими к фактическим значениям в наборе данных.

Обратите внимание, что мы также можем сравнивать значения MSE каждой модели, но RMSE проще интерпретировать и поэтому используется чаще.

Дополнительные ресурсы

Введение в множественную линейную регрессию
RMSE против R-квадрата: какую метрику следует использовать?
Калькулятор RMSE

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *