Как интерпретировать скорректированный r-квадрат (с примерами)
Когда мы подгоняем модели линейной регрессии, мы часто вычисляем значение R-квадрата модели.
Значение R-квадрата — это доля дисперсии переменной отклика , которую можно объяснить переменными-предикторами в модели.
Значение R в квадрате может варьироваться от 0 до 1, где:
- Значение 0 указывает, что переменная ответа вообще не может быть объяснена переменными-предикторами.
- Значение 1 указывает, что переменная ответа может быть полностью объяснена переменными-предикторами.
Хотя эта метрика обычно используется для оценки того, насколько хорошо регрессионная модель соответствует набору данных, у нее есть серьезный недостаток:
Недостаток R-квадрата:
R-квадрат всегда будет увеличиваться, когда в модель регрессии добавляется новая предикторная переменная.
Даже если новая переменная-предиктор почти не связана с переменной отклика, значение R-квадрата модели увеличится, пусть даже и на небольшую величину.
По этой причине модель регрессии с большим количеством переменных-предикторов может иметь высокое значение R-квадрата, даже если модель плохо соответствует данным.
К счастью, существует альтернатива R-квадрату, называемая скорректированным R-квадратом .
Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая корректирует количество предикторов в регрессионной модели.
Он рассчитывается следующим образом:
Скорректированный R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
Золото:
- R 2 : R 2 модели.
- n : Количество наблюдений
- k : Количество переменных-предсказателей
Поскольку R-квадрат всегда увеличивается по мере добавления предикторов в модель, скорректированный R-квадрат может сказать вам, насколько полезна модель с поправкой на количество предикторов в модели .
Преимущество скорректированного R-квадрата:
Скорректированный R-квадрат говорит нам, насколько хорошо набор переменных-предикторов способен объяснить изменение переменной отклика, скорректированной на количество предикторов в модели .
Благодаря способу расчета скорректированный R-квадрат можно использовать для сравнения соответствия моделей регрессии с различным количеством переменных-предикторов.
Чтобы лучше понять скорректированный R-квадрат, посмотрите следующий пример.
Пример: понимание скорректированного R-квадрата в регрессионных моделях
Предположим, профессор собирает данные о студентах в своем классе и применяет следующую модель регрессии, чтобы понять, как часы, потраченные на обучение, и текущая оценка в классе влияют на оценку, которую студент получает на выпускном экзамене.
Оценка на экзамене = β 0 + β 1 (часы, потраченные на обучение) + β 2 (текущая оценка)
Предположим, что эта регрессионная модель имеет следующие показатели:
- R в квадрате: 0,955
- Скорректированный R-квадрат: 0,946.
Теперь предположим, что учитель решает собрать данные по другой переменной для каждого ученика: размеру обуви.
Хотя эта переменная не должна иметь никакой связи с итоговой оценкой за экзамен, он решает адаптировать следующую регрессионную модель:
Оценка на экзамене = β 0 + β 1 (часы, потраченные на обучение) + β 2 (текущий год) + β 3 (размер обуви)
Предположим, что эта регрессионная модель имеет следующие показатели:
- R в квадрате: 0,965
- Скорректированный R-квадрат: 0,902.
Если бы мы посмотрели только на значения R-квадрата для каждой из этих двух моделей регрессии, мы бы пришли к выводу, что лучше использовать вторую модель, поскольку она имеет более высокое значение R-квадрата!
Однако, если мы посмотрим на скорректированные значения R-квадрата , мы придем к другому выводу: лучше использовать первую модель, поскольку она имеет более высокое скорректированное значение R-квадрата.
Вторая модель имеет более высокое значение R-квадрата только потому, что в ней больше переменных-предикторов, чем в первой модели.
Однако добавленная нами предикторная переменная (размер обуви) оказалась плохим предсказателем итоговой оценки на экзамене, поэтому скорректированное значение R-квадрата наказало модель за добавление этой предикторной переменной.
Этот пример иллюстрирует, почему скорректированный R-квадрат является лучшим показателем для использования при сравнении соответствия моделей регрессии с различным количеством переменных-предикторов.
Дополнительные ресурсы
В следующих руководствах объясняется, как рассчитать скорректированные значения R-квадрата с использованием различного статистического программного обеспечения:
Как рассчитать скорректированный R-квадрат в R
Как рассчитать скорректированный R-квадрат в Excel
Как рассчитать скорректированный R-квадрат в Python