Rmse против r-квадрата: какую метрику следует использовать?


Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Всякий раз, когда мы подгоняем регрессионную модель, мы хотим понять, насколько хорошо модель «соответствует» данным. Другими словами, насколько хорошо модель способна использовать значения переменных-предикторов для прогнозирования значения переменной отклика ?

Двумя метриками, которые статистики часто используют для количественной оценки того, насколько хорошо модель соответствует набору данных, являются среднеквадратическая ошибка (RMSE) и R в квадрате ( R2 ), которые рассчитываются следующим образом:

RMSE : метрика, которая сообщает нам, насколько в среднем далеки прогнозируемые значения от наблюдаемых значений в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

RMSE = √ Σ(P i – O i ) 2 / n

Золото:

  • Σ — символ, означающий «сумма».
  • Pi — прогнозируемое значение для i-го наблюдения.
  • O i — наблюдаемое значение для i-го наблюдения
  • n — размер выборки

R 2 : показатель, который говорит нам, какая часть дисперсии переменной отклика регрессионной модели может быть объяснена переменными-предикторами. Это значение находится в диапазоне от 0 до 1. Чем выше значение R 2 , тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

R2 = 1 – (РСС/ТСС)

Золото:

  • RSS представляет собой сумму квадратов остатков
  • TSS представляет собой общую сумму квадратов

RMSE против R 2 : какую метрику следует использовать?

При оценке соответствия модели набору данных полезно рассчитать как значение RMSE, так и значение R 2 , поскольку каждая метрика говорит нам что-то свое.

С одной стороны, RMSE сообщает нам типичное расстояние между прогнозируемым значением, полученным с помощью регрессионной модели, и истинным значением.

С другой стороны, R 2 говорит нам, в какой степени переменные-предикторы могут объяснить изменение переменной отклика.

Например, предположим, что у нас есть следующий набор данных, который отображает информацию о домах в определенном городе:

Теперь предположим, что мы хотим использовать квадратные метры, количество ванных комнат и количество спален, чтобы спрогнозировать цену дома.

Мы можем адаптировать следующую регрессионную модель:

Цена = β 0 + β 1 (площадь в квадратных метрах) + β 2 (количество ванных комнат) + β 3 (количество спален)

Теперь предположим, что мы подгоняем эту модель, а затем вычисляем следующие показатели, чтобы оценить степень соответствия модели:

  • СКО : 14,342
  • Р2 : 0,856

Значение RMSE говорит нам, что средняя разница между прогнозируемой моделью ценой дома и фактической ценой дома составляет 14 342 доллара.

Значение R 2 говорит нам о том, что переменные-предсказатели модели (площадь в квадратных метрах, количество ванных комнат и количество спален) способны объяснить 85,6% изменений цен на жилье.

Чтобы определить, являются ли эти значения «хорошими» или нет, мы можем сравнить эти измерения с альтернативными моделями.

Например, предположим, что мы подбираем другую модель регрессии, которая использует другой набор переменных-предикторов, и вычисляем для этой модели следующие показатели:

  • СКО : 19,355
  • Р2 : 0,765

Мы видим, что значение RMSE этой модели выше, чем у предыдущей модели. Также видно, что значение R 2 этой модели ниже, чем у предыдущей модели. Это говорит нам о том, что эта модель хуже соответствует данным, чем предыдущая модель.

Краткое содержание

Вот основные моменты, затронутые в этой статье:

  • RMSE и R 2 количественно определяют, насколько хорошо регрессионная модель соответствует набору данных.
  • RMSE говорит нам, насколько хорошо модель регрессии может предсказать значение переменной ответа в абсолютном выражении, а R 2 говорит нам, насколько хорошо модель может предсказать значение переменной ответа в процентном выражении.
  • Полезно рассчитать как RMSE, так и R2 для данной модели, поскольку каждая метрика дает нам полезную информацию.

Дополнительные ресурсы

Введение в множественную линейную регрессию
R vs R-Square: в чем разница?
Что такое хорошее значение R-квадрата?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *