Что считается хорошим значением rmse?


Один из способов оценить, насколько хорошо модель регрессии соответствует набору данных, — это вычислить среднеквадратическую ошибку , которая сообщает нам среднее расстояние между прогнозируемыми значениями модели и фактическими значениями набора данных. данные.

Формула для нахождения среднеквадратической ошибки, часто обозначаемая сокращенно RMSE , выглядит следующим образом:

RMSE =Σ(P i – O i ) 2 / n

Золото:

  • Σ — причудливый символ, означающий «сумма».
  • Pi — прогнозируемое значение для i-го наблюдения в наборе данных.
  • O i — наблюдаемое значение для i-го наблюдения в наборе данных.
  • n — размер выборки

Люди часто задают вопрос: какое значение RMSE является хорошим?

Короткий ответ: это зависит .

Чем ниже RMSE, тем лучше данная модель может «подогнать» набор данных. Однако диапазон набора данных, с которым вы работаете, важен для определения того, является ли данное значение RMSE «низким» или нет.

Например, рассмотрим следующие сценарии:

Сценарий 1: Мы хотели бы использовать регрессионную модель для прогнозирования цен на дома в определенном городе. Предположим, что модель имеет среднеквадратическое значение 500 долларов США. Поскольку типичный диапазон цен на жилье составляет от 70 000 до 300 000 долларов, это значение RMSE чрезвычайно низкое. Это говорит нам о том, что модель способна точно прогнозировать цены на недвижимость.

Сценарий 2. Предположим, мы хотим использовать регрессионную модель, чтобы предсказать, сколько человек будет тратить в месяц в определенном городе. Предположим, что модель имеет среднеквадратическое значение 500 долларов США. Если типичный диапазон ежемесячных расходов составляет от 1500 до 4000 долларов США, это значение RMSE довольно велико. Это говорит нам о том, что модель не способна с большой точностью прогнозировать ежемесячные расходы.

Эти простые примеры показывают, что не существует универсального «хорошего» значения RMSE. Все зависит от диапазона значений набора данных, с которым вы работаете.

Нормализация значения RMSE

Один из способов лучше понять, является ли определенное значение RMSE «хорошим», — это нормализовать его с помощью следующей формулы:

Нормализованное RMSE = RMSE / (максимальное значение – минимальное значение)

Это дает значение от 0 до 1, где значения ближе к 0 представляют более подходящие модели.

Например, предположим, что наше среднеквадратичное значение составляет 500 долларов США, а диапазон значений — от 70 000 до 300 000 долларов США. Мы могли бы рассчитать нормализованное значение RMSE следующим образом:

  • Нормализованное среднеквадратичное значение = 500 долларов США / (300 000–70 000 долларов США) = 0,002.

И наоборот, предположим, что наше среднеквадратическое значение составляет 500 долларов США, а диапазон значений составляет от 1500 до 4000 долларов США. Мы могли бы рассчитать нормализованное значение RMSE следующим образом:

  • Нормализованное среднеквадратичное значение = 500 долларов США / (4000–1500 долларов США) = 0,2 .

Первое нормализованное значение RMSE намного ниже, что указывает на то, что оно обеспечивает гораздо лучшее соответствие данным по сравнению со вторым нормализованным значением RMSE.

Сравнение RMSE между моделями

Вместо того, чтобы выбирать произвольное число для представления «хорошего» значения RMSE, мы можем просто сравнить значения RMSE нескольких моделей.

Например, предположим, что мы подбираем три разные модели регрессии для прогнозирования цен на недвижимость. Предположим, что три модели имеют следующие значения RMSE:

  • Модель 1 RMSE: 550 долларов США.
  • Средняя среднеквадратическая цена модели 2: 480 долларов США.
  • Модель 3 RMSE: 1400 долларов США.

Поскольку значение RMSE модели 2 является самым низким, мы бы выбрали модель 2 как лучшую модель для прогнозирования цен на недвижимость, поскольку среднее расстояние между прогнозируемыми и фактическими ценами для этой модели самое низкое.

Дополнительные ресурсы

Как интерпретировать RMSE
Как рассчитать RMSE в Excel
Как рассчитать RMSE в R
Как рассчитать RMSE в Python
Калькулятор RMSE

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *