Як інтерпретувати скоригований r-квадрат (з прикладами)


Підбираючи моделі лінійної регресії, ми часто обчислюємо R-квадрат моделі.

Значення R-квадрат – це частка дисперсії у змінній відповіді , яку можна пояснити змінними предиктора в моделі.

Значення R у квадраті може варіюватися від 0 до 1, де:

  • Значення 0 вказує на те, що змінна відповіді взагалі не може бути пояснена змінними предиктора.
  • Значення 1 вказує на те, що змінна відповіді може бути ідеально пояснена змінними предикторами.

Хоча цей показник зазвичай використовується для оцінки того, наскільки регресійна модель відповідає набору даних, він має серйозний недолік:

Недолік R-квадрата:

R-квадрат завжди зростатиме, коли до регресійної моделі додається нова змінна предиктора.

Навіть якщо нова змінна предиктора майже не пов’язана зі змінною відповіді, значення R-квадрат моделі збільшиться, навіть якщо лише на невелику величину.

З цієї причини регресійна модель із великою кількістю прогностичних змінних може мати високе значення R-квадрат, навіть якщо модель погано відповідає даним.

На щастя, існує альтернатива R-квадрату під назвою скоригований R-квадрат .

Скоригований R-квадрат – це модифікована версія R-квадрату, яка коригує кількість предикторів у регресійній моделі.

Він розраховується таким чином:

Скоригований R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]

золото:

  • R 2 : R 2 моделі
  • n : кількість спостережень
  • k : кількість змінних предиктора

Оскільки R-квадрат завжди збільшується, коли ви додаєте предиктори до моделі, скоригований R-квадрат може показати вам, наскільки корисною є модель, скоригована на кількість предикторів у моделі .

Перевага скоригованого R-квадрата:

Скоригований R-квадрат говорить нам, наскільки добре набір змінних предикторів здатний пояснити варіацію змінної відповіді, скоригованої на кількість предикторів у моделі .

Через спосіб обчислення скоригований R-квадрат можна використовувати для порівняння відповідності моделей регресії з різною кількістю змінних предиктора.

Щоб краще зрозуміти скоригований R-квадрат, перегляньте наступний приклад.

Приклад: розуміння скоригованого R-квадрату в моделях регресії

Припустімо, що професор збирає дані про студентів у своєму класі та використовує наступну регресійну модель, щоб зрозуміти, як години, витрачені на навчання, і поточна оцінка в класі впливають на оцінку, яку студент отримує на випускному іспиті.

Оцінка за іспит = β 0 + β 1 (годин, витрачених на навчання) + β 2 (поточна оцінка)

Припустімо, що ця модель регресії має такі показники:

  • R у квадраті: 0,955
  • Скоригований R-квадрат: 0,946

Тепер припустімо, що вчитель вирішив зібрати дані про іншу змінну для кожного учня: розмір взуття.

Хоча ця змінна не повинна мати зв’язку з оцінкою підсумкового іспиту, він вирішує адаптувати таку регресійну модель:

Оцінка за іспит = β 0 + β 1 (годин, витрачених на навчання) + β 2 (поточний рік) + β 3 (розмір взуття)

Припустімо, що ця модель регресії має такі показники:

  • R у квадраті: 0,965
  • Скоригований R-квадрат: 0,902

Якби ми подивилися лише на значення R-квадрат для кожної з цих двох моделей регресії, ми б дійшли висновку, що краще використовувати другу модель, оскільки вона має вище значення R-квадрат!

Однак, якщо ми подивимося на скориговані значення R-квадрат , то прийдемо до іншого висновку: краще використовувати першу модель, оскільки вона має вищий скоригований R-квадрат.

Друга модель має тільки вище значення R-квадрат, оскільки вона має більше змінних предикторів, ніж перша модель.

Однак змінна предиктора, яку ми додали (розмір взуття), була поганим прогнозом балів на підсумковому іспиті, тому скориговане значення R-квадрат покарало модель за додавання цієї змінної предиктора.

Цей приклад ілюструє, чому скоригований R-квадрат є кращим показником для використання під час порівняння відповідності моделей регресії з різною кількістю змінних предиктора.

Додаткові ресурси

У наступних посібниках пояснюється, як обчислити скориговані значення R-квадрат за допомогою різного статистичного програмного забезпечення:

Як обчислити скоригований R-квадрат у R
Як розрахувати скоригований R-квадрат у Excel
Як розрахувати скоригований R-квадрат у Python

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *