Как интерпретировать скорректированный r-квадрат (с примерами)


Когда мы подгоняем модели линейной регрессии, мы часто вычисляем значение R-квадрата модели.

Значение R-квадрата — это доля дисперсии переменной отклика , которую можно объяснить переменными-предикторами в модели.

Значение R в квадрате может варьироваться от 0 до 1, где:

  • Значение 0 указывает, что переменная ответа вообще не может быть объяснена переменными-предикторами.
  • Значение 1 указывает, что переменная ответа может быть полностью объяснена переменными-предикторами.

Хотя эта метрика обычно используется для оценки того, насколько хорошо регрессионная модель соответствует набору данных, у нее есть серьезный недостаток:

Недостаток R-квадрата:

R-квадрат всегда будет увеличиваться, когда в модель регрессии добавляется новая предикторная переменная.

Даже если новая переменная-предиктор почти не связана с переменной отклика, значение R-квадрата модели увеличится, пусть даже и на небольшую величину.

По этой причине модель регрессии с большим количеством переменных-предикторов может иметь высокое значение R-квадрата, даже если модель плохо соответствует данным.

К счастью, существует альтернатива R-квадрату, называемая скорректированным R-квадратом .

Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели.

Он рассчитывается следующим образом:

Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

Золото:

  • R 2 : R 2 модели.
  • n : Количество наблюдений
  • k : Количество переменных-предсказателей

Поскольку R-квадрат всегда увеличивается по мере добавления предикторов в модель, скорректированный R-квадрат может сказать вам, насколько полезна модель с поправкой на количество предикторов в модели .

Преимущество скорректированного R-квадрата:

Скорректированный R-квадрат говорит нам, насколько хорошо набор переменных-предикторов способен объяснить изменение переменной отклика, скорректированной на количество предикторов в модели .

Благодаря способу расчета скорректированный R-квадрат можно использовать для сравнения соответствия моделей регрессии с различным количеством переменных-предикторов.

Чтобы лучше понять скорректированный R-квадрат, посмотрите следующий пример.

Пример: понимание скорректированного R-квадрата в регрессионных моделях

Предположим, профессор собирает данные о студентах в своем классе и применяет следующую модель регрессии, чтобы понять, как часы, потраченные на обучение, и текущая оценка в классе влияют на оценку, которую студент получает на выпускном экзамене.

Оценка на экзамене = β 0 + β 1 (часы, потраченные на обучение) + β 2 (текущая оценка)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R в квадрате: 0,955
  • Скорректированный R-квадрат: 0,946.

Теперь предположим, что учитель решает собрать данные по другой переменной для каждого ученика: размеру обуви.

Хотя эта переменная не должна иметь никакой связи с итоговой оценкой за экзамен, он решает адаптировать следующую регрессионную модель:

Оценка на экзамене = β 0 + β 1 (часы, потраченные на обучение) + β 2 (текущий год) + β 3 (размер обуви)

Предположим, что эта регрессионная модель имеет следующие показатели:

  • R в квадрате: 0,965
  • Скорректированный R-квадрат: 0,902.

Если бы мы посмотрели только на значения R-квадрата для каждой из этих двух моделей регрессии, мы бы пришли к выводу, что лучше использовать вторую модель, поскольку она имеет более высокое значение R-квадрата!

Однако, если мы посмотрим на скорректированные значения R-квадрата , мы придем к другому выводу: лучше использовать первую модель, поскольку она имеет более высокое скорректированное значение R-квадрата.

Вторая модель имеет более высокое значение R-квадрата только потому, что в ней больше переменных-предикторов, чем в первой модели.

Однако добавленная нами предикторная переменная (размер обуви) оказалась плохим предсказателем итоговой оценки на экзамене, поэтому скорректированное значение R-квадрата наказало модель за добавление этой предикторной переменной.

Этот пример иллюстрирует, почему скорректированный R-квадрат является лучшим показателем для использования при сравнении соответствия моделей регрессии с различным количеством переменных-предикторов.

Дополнительные ресурсы

В следующих руководствах объясняется, как рассчитать скорректированные значения R-квадрата с использованием различного статистического программного обеспечения:

Как рассчитать скорректированный R-квадрат в R
Как рассчитать скорректированный R-квадрат в Excel
Как рассчитать скорректированный R-квадрат в Python

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *