Що вважається хорошим значенням rmse?


Один із способів оцінити, наскільки регресійна модель відповідає набору даних, — обчислити середню квадратичну помилку , яка повідомляє нам середню відстань між прогнозованими значеннями моделі та фактичними значеннями набору даних. даних.

Формула для знаходження середньої квадратичної помилки, часто скорочена RMSE , така:

RMSE =Σ(P i – O i ) 2 / n

золото:

  • Σ – химерний символ, який означає «сума»
  • P i – прогнозоване значення для i-го спостереження в наборі даних
  • O i — спостережене значення для i-го спостереження в наборі даних
  • n – розмір вибірки

Люди часто задають питання: що таке хороше значення RMSE?

Коротка відповідь: це залежить .

Чим нижче RMSE, тим краще дана модель здатна «відповідати» набору даних. Однак діапазон набору даних, з яким ви працюєте, важливий для визначення того, чи є задане значення RMSE «низьким» чи ні.

Наприклад, розглянемо такі сценарії:

Сценарій 1. Ми хотіли б використати регресійну модель для прогнозування цін на будинки в певному місті. Припустимо, що модель має значення RMSE 500 доларів. Оскільки типовий діапазон цін на житло становить від 70 000 до 300 000 доларів США, це значення RMSE є надзвичайно низьким. Це говорить нам про те, що модель здатна точно прогнозувати ціни на нерухомість.

Сценарій 2: тепер припустімо, що ми хочемо використати регресійну модель, щоб передбачити, скільки людина витрачатиме на місяць у певному місті. Припустимо, що модель має значення RMSE 500 доларів. Якщо типовий місячний діапазон витрат становить від 1500 до 4000 доларів США, це значення RMSE є досить високим. Це говорить нам про те, що модель не в змозі передбачити щомісячні витрати з високою точністю.

Ці прості приклади показують, що не існує універсального «хорошого» значення RMSE. Все залежить від діапазону значень набору даних, з яким ви працюєте.

Нормалізація значення RMSE

Один із способів краще зрозуміти, чи є певне значення RMSE «хорошим», це нормалізувати його за такою формулою:

Нормалізований RMSE = RMSE / (максимальне значення – мінімальне значення)

Це дає значення від 0 до 1, де значення, ближчі до 0, представляють моделі, які краще підходять.

Наприклад, скажімо, наше значення RMSE становить 500 доларів, а діапазон значень – від 70 000 до 300 000 доларів. Ми б розрахували нормалізоване значення RMSE наступним чином:

  • Нормалізований RMSE = 500 доларів США / (300 000 – 70 000 доларів США) = 0,002

І навпаки, припустімо, що наше значення RMSE становить 500 доларів США, а діапазон значень – від 1500 до 4000 доларів США. Ми б розрахували нормалізоване значення RMSE наступним чином:

  • Нормалізований RMSE = 500 доларів США / (4000 – 1500 доларів США) = 0,2 .

Перше нормалізоване значення RMSE значно нижче, що вказує на те, що воно забезпечує набагато кращу відповідність даним порівняно з другим нормалізованим значенням RMSE.

Порівняння RMSE між моделями

Замість того, щоб вибирати довільне число для представлення «хорошого» значення RMSE, ми можемо просто порівняти значення RMSE кількох моделей.

Наприклад, припустімо, що ми використовуємо три різні регресійні моделі для прогнозування цін на нерухомість. Припустимо, що три моделі мають такі значення RMSE:

  • Модель 1 RMSE: $550
  • Модель 2 RMSE: $480
  • Модель 3 RMSE: 1400 доларів США

Оскільки значення RMSE моделі 2 є найнижчим, ми вибрали б модель 2 як найкращу модель для прогнозування цін на нерухомість, оскільки середня відстань між прогнозованими та фактичними цінами є найнижчою для цієї моделі.

Додаткові ресурси

Як інтерпретувати RMSE
Як розрахувати RMSE в Excel
Як розрахувати RMSE в R
Як обчислити RMSE в Python
Калькулятор RMSE

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *