Rmse против r-квадрата: какую метрику следует использовать?

К бенджамин андерсон 24 июля, 2023 Гид 0 комментариев

Модели регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика.

Всякий раз, когда мы подгоняем регрессионную модель, мы хотим понять, насколько хорошо модель «соответствует» данным. Другими словами, насколько хорошо модель способна использовать значения переменных-предикторов для прогнозирования значения переменной отклика ?

Двумя метриками, которые статистики часто используют для количественной оценки того, насколько хорошо модель соответствует набору данных, являются среднеквадратическая ошибка (RMSE) и R в квадрате ( ^R2 ), которые рассчитываются следующим образом:

RMSE : метрика, которая сообщает нам, насколько в среднем далеки прогнозируемые значения от наблюдаемых значений в наборе данных. Чем ниже RMSE, тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

RMSE = √ Σ(P _i – O _i ) ² / n

Золото:

Σ — символ, означающий «сумма».
_Pi — прогнозируемое значение для ^i-го наблюдения.
O _i — наблюдаемое значение для ^i-го наблюдения
n — размер выборки

R ² : показатель, который говорит нам, какая часть дисперсии переменной отклика регрессионной модели может быть объяснена переменными-предикторами. Это значение находится в диапазоне от 0 до 1. Чем выше значение R ² , тем лучше модель соответствует набору данных.

Он рассчитывается следующим образом:

^R2 = 1 – (РСС/ТСС)

Золото:

RSS представляет собой сумму квадратов остатков
TSS представляет собой общую сумму квадратов

RMSE против R ² : какую метрику следует использовать?

При оценке соответствия модели набору данных полезно рассчитать как значение RMSE, так и значение R ² , поскольку каждая метрика говорит нам что-то свое.

С одной стороны, RMSE сообщает нам типичное расстояние между прогнозируемым значением, полученным с помощью регрессионной модели, и истинным значением.

С другой стороны, R ² говорит нам, в какой степени переменные-предикторы могут объяснить изменение переменной отклика.

Например, предположим, что у нас есть следующий набор данных, который отображает информацию о домах в определенном городе:

Теперь предположим, что мы хотим использовать квадратные метры, количество ванных комнат и количество спален, чтобы спрогнозировать цену дома.

Мы можем адаптировать следующую регрессионную модель:

Цена = β ₀ + β ₁ (площадь в квадратных метрах) + β ₂ (количество ванных комнат) + β ₃ (количество спален)

Теперь предположим, что мы подгоняем эту модель, а затем вычисляем следующие показатели, чтобы оценить степень соответствия модели:

СКО : 14,342
^Р2 : 0,856

Значение RMSE говорит нам, что средняя разница между прогнозируемой моделью ценой дома и фактической ценой дома составляет 14 342 доллара.

Значение R ² говорит нам о том, что переменные-предсказатели модели (площадь в квадратных метрах, количество ванных комнат и количество спален) способны объяснить 85,6% изменений цен на жилье.

Чтобы определить, являются ли эти значения «хорошими» или нет, мы можем сравнить эти измерения с альтернативными моделями.

Например, предположим, что мы подбираем другую модель регрессии, которая использует другой набор переменных-предикторов, и вычисляем для этой модели следующие показатели:

СКО : 19,355
^Р2 : 0,765

Мы видим, что значение RMSE этой модели выше, чем у предыдущей модели. Также видно, что значение R ² этой модели ниже, чем у предыдущей модели. Это говорит нам о том, что эта модель хуже соответствует данным, чем предыдущая модель.

Краткое содержание

Вот основные моменты, затронутые в этой статье:

RMSE и R ² количественно определяют, насколько хорошо регрессионная модель соответствует набору данных.
RMSE говорит нам, насколько хорошо модель регрессии может предсказать значение переменной ответа в абсолютном выражении, а R ² говорит нам, насколько хорошо модель может предсказать значение переменной ответа в процентном выражении.
Полезно рассчитать как RMSE, так и ^R2 для данной модели, поскольку каждая метрика дает нам полезную информацию.

Дополнительные ресурсы

Введение в множественную линейную регрессию
R vs R-Square: в чем разница?
Что такое хорошее значение R-квадрата?

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше

RMSE против R 2 : какую метрику следует использовать?

Краткое содержание

Дополнительные ресурсы

Об авторе

бенджамин андерсон

Добавить комментарий

RMSE против R ² : какую метрику следует использовать?