Мсэ против. rmse: какую метрику следует использовать?
Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Всякий раз, когда мы подгоняем модель регрессии, мы хотим понять, насколько хорошо модель может использовать значения переменных-предикторов для прогнозирования значения переменной отклика.
Два показателя, которые мы часто используем для количественной оценки того, насколько хорошо модель соответствует набору данных, — это среднеквадратическая ошибка (MSE) и среднеквадратическая ошибка (RMSE), которые рассчитываются следующим образом:
MSE : показатель, который сообщает нам среднеквадратическую разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже MSE, тем лучше модель соответствует набору данных.
MSE = Σ(ŷ i – y i ) 2 / n
Золото:
- Σ — символ, означающий «сумма».
- ŷ i — прогнозируемое значение для i- го наблюдения
- y i — наблюдаемое значение для i-го наблюдения
- n — размер выборки
RMSE : показатель, который сообщает нам квадратный корень из среднеквадратической разницы между прогнозируемыми значениями и фактическими значениями в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.
Он рассчитывается следующим образом:
RMSE = √ Σ(ŷ i – y i ) 2 / n
Золото:
- Σ — символ, означающий «сумма».
- ŷ i — прогнозируемое значение для i- го наблюдения
- y i — наблюдаемое значение для i-го наблюдения
- n — размер выборки
Обратите внимание, что формулы практически идентичны. Фактически, среднеквадратическая ошибка — это просто квадратный корень из среднеквадратической ошибки.
RMSE против. MSE: какой показатель следует использовать?
Чтобы оценить, насколько хорошо модель соответствует набору данных, мы чаще используем RMSE , поскольку оно измеряется в тех же единицах, что и переменная ответа.
И наоборот, MSE измеряется в квадратных единицах переменной отклика.
Чтобы проиллюстрировать это, предположим, что мы используем регрессионную модель, чтобы предсказать, сколько очков наберут 10 игроков в баскетбольном матче.
В следующей таблице показаны очки, предсказанные моделью, в сравнении с фактическими очками, набранными игроками:
Мы могли бы рассчитать среднеквадратическую ошибку (MSE) следующим образом:
- MSE = Σ(ŷ i – y i ) 2 / n
- СКО = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- СКО = 16
Среднеквадратическая ошибка равна 16. Это говорит нам о том, что среднеквадратическая разница между значениями, предсказанными моделью, и фактическими значениями равна 16.
Среднеквадратическая ошибка (RMSE) будет просто квадратным корнем из MSE:
- АДЕ = √ EQM
- СКО = √ 16
- СКО = 4
Среднеквадратическая ошибка равна 4. Это говорит нам о том, что среднее отклонение между прогнозируемыми и фактически набранными баллами равно 4.
Обратите внимание, что интерпретировать среднеквадратическую ошибку намного проще, чем среднеквадратическую ошибку, поскольку мы говорим о «набранных баллах», а не о «квадратичных баллах».
Как использовать RMSE на практике
На практике мы обычно подгоняем несколько моделей регрессии к набору данных и вычисляем среднеквадратическую ошибку (RMSE) каждой модели.
Затем мы выбираем модель с наименьшим значением RMSE в качестве «лучшей» модели, поскольку именно она делает прогнозы наиболее близкими к фактическим значениям в наборе данных.
Обратите внимание, что мы также можем сравнивать значения MSE каждой модели, но RMSE проще интерпретировать и поэтому используется чаще.
Дополнительные ресурсы
Введение в множественную линейную регрессию
RMSE против R-квадрата: какую метрику следует использовать?
Калькулятор RMSE