Mse проти. rmse: який показник вам слід використовувати?
Регресійні моделі використовуються для кількісного визначення зв’язку між однією або декількома змінними предиктора та змінною відповіді .
Щоразу, коли ми підбираємо регресійну модель, ми хочемо зрозуміти, наскільки добре модель здатна використовувати значення змінних предикторів для прогнозування значення змінної відповіді.
Дві метрики, які ми часто використовуємо для кількісної оцінки того, наскільки добре модель відповідає набору даних, це середня квадратична помилка (MSE) і середньоквадратична помилка (RMSE), які обчислюються таким чином:
MSE : показник, який повідомляє нам середню квадратичну різницю між прогнозованими значеннями та фактичними значеннями в наборі даних. Чим нижчий MSE, тим краще модель відповідає набору даних.
MSE = Σ(ŷ i – y i ) 2 / n
золото:
- Σ – символ, що означає «сума»
- ŷ i – прогнозоване значення для i- го спостереження
- y i – спостережуване значення для i-го спостереження
- n – розмір вибірки
RMSE : метрика, яка повідомляє нам квадратний корінь із середньоквадратичної різниці між прогнозованими значеннями та фактичними значеннями в наборі даних. Чим нижче RMSE, тим краще модель відповідає набору даних.
Він розраховується таким чином:
RMSE = √ Σ(ŷ i – y i ) 2 / n
золото:
- Σ – символ, що означає «сума»
- ŷ i – прогнозоване значення для i- го спостереження
- y i – спостережуване значення для i-го спостереження
- n – розмір вибірки
Зверніть увагу, що формули майже ідентичні. Насправді середня квадратична помилка – це просто квадратний корінь із середньої квадратичної помилки.
RMSE проти. MSE: який показник вам слід використовувати?
Щоб оцінити, наскільки добре модель відповідає набору даних, ми частіше використовуємо RMSE , оскільки воно вимірюється в тих самих одиницях, що й змінна відповіді.
І навпаки, MSE вимірюється в квадратних одиницях змінної відповіді.
Щоб проілюструвати це, припустімо, що ми використовуємо регресійну модель, щоб передбачити, скільки очок наберуть 10 гравців у баскетбольній грі.
У наведеній нижче таблиці наведено очки, передбачені моделлю, у порівнянні з фактичними очками, набраними гравцями:
Ми б обчислили середню квадратичну помилку (MSE) наступним чином:
- MSE = Σ(ŷ i – y i ) 2 / n
- MSE = ((14-12) 2 +(15-15) 2 +(18-20) 2 +(19-16) 2 +(25-20) 2 +(18-19) 2 +(12-16) 2 +(12-20) 2 +(15-16) 2 +(22-16) 2 ) / 10
- MSE = 16
Середня квадратична помилка дорівнює 16. Це говорить нам, що середня квадратична різниця між значеннями, передбаченими моделлю, і фактичними значеннями дорівнює 16.
Середньоквадратична помилка (RMSE) буде просто квадратним коренем із MSE:
- ADE = √ EQM
- RMSE = √ 16
- RMSE = 4
Середня квадратична помилка дорівнює 4. Це говорить нам про те, що середнє відхилення між прогнозованими набраними балами та фактичними набраними балами дорівнює 4.
Зауважте, що інтерпретувати середню квадратичну помилку набагато простіше, ніж середню квадратичну помилку, оскільки ми говоримо про «набрані очки», а не «набрані очки в квадраті».
Як використовувати RMSE на практиці
На практиці ми зазвичай підбираємо кілька регресійних моделей до набору даних і обчислюємо середньоквадратичну помилку (RMSE) кожної моделі.
Потім ми вибираємо модель із найнижчим значенням RMSE як «найкращу», оскільки саме вона робить прогнози найближчими до фактичних значень у наборі даних.
Зауважте, що ми також можемо порівняти значення MSE кожної моделі, але RMSE легше інтерпретувати і тому використовується частіше.
Додаткові ресурси
Вступ до множинної лінійної регресії
RMSE проти R-квадрату: який показник вам слід використовувати?
Калькулятор RMSE