Як читати та інтерпретувати таблицю регресії
У статистиці регресія — це техніка, яка може бути використана для аналізу зв’язку між змінними прогнозу та змінною відповіді.
Якщо ви використовуєте програмне забезпечення (як-от R, SAS, SPSS тощо) для виконання регресійного аналізу, ви отримаєте на виході таблицю регресії, у якій підсумовуються результати регресії. Важливо знати, як читати цю таблицю, щоб ви могли зрозуміти результати регресійного аналізу.
У цьому підручнику наведено приклад регресійного аналізу та надано детальне пояснення того, як читати та інтерпретувати результат регресійної таблиці.
Приклад регресії
Припустімо, що ми маємо такий набір даних, який показує загальну кількість вивчених годин, загальну кількість складених підготовчих іспитів і підсумкову оцінку іспиту для 12 різних студентів:
Щоб проаналізувати взаємозв’язок між вивченими годинами та складеними підготовчими іспитами та підсумковою іспитовою оцінкою, отриманою студентом, ми виконуємо множинну лінійну регресію, використовуючи вивчені години та підготовчі іспити, взяті як предикторні змінні, і підсумкову оцінку, що перевіряється, як змінну відповіді.
Отримуємо такий результат:
Перевірка підгонки моделі
Перший розділ показує кілька різних чисел, які вимірюють відповідність регресійної моделі, тобто наскільки добре регресійна модель здатна «відповідати» набору даних.
Ось як інтерпретувати кожне з чисел у цьому розділі:
Кілька рупій
Це коефіцієнт кореляції . Він вимірює силу лінійного зв’язку між змінними предиктора та змінною відповіді. R, кратне 1, вказує на ідеальний лінійний зв’язок, а R, кратне 0, означає відсутність лінійного зв’язку. Кратне R — це квадратний корінь із R у квадраті (див. нижче).
У цьому прикладі множник R дорівнює 0,72855 , що вказує на досить сильний лінійний зв’язок між навчальними годинами та підготовчими іспитами прогнозуючих осіб та підсумковою іспитовою оцінкою змінної відповіді.
R-квадрат
Його часто записують як r2 і також називають коефіцієнтом детермінації . Це частка дисперсії у змінній відповіді, яку можна пояснити змінною предиктора.
Значення R-квадрат може коливатися від 0 до 1. Значення 0 вказує на те, що змінна відповіді взагалі не може бути пояснена змінною предиктора. Значення 1 вказує на те, що змінна відповіді може бути ідеально пояснена безпомилково змінною предиктора.
У цьому прикладі R-квадрат дорівнює 0,5307 , що вказує на те, що 53,07% розбіжності в результатах підсумкового іспиту можна пояснити кількістю вивчених годин і кількістю минулих практичних іспитів.
За темою: що таке хороше значення R-квадрат?
Скоригований R-квадрат
Це модифікована версія R-квадрат, яка була скоригована на основі кількості предикторів у моделі. Воно завжди менше R в квадраті. Скоригований R-квадрат може бути корисним для порівняння відповідності різних регресійних моделей одна одній.
У цьому прикладі скоригований R-квадрат становить 0,4265.
Стандартна помилка регресії
Стандартна помилка регресії – це середня відстань між спостережуваними значеннями та лінією регресії. У цьому прикладі спостережувані значення відхиляються в середньому на 7,3267 одиниць від лінії регресії.
Пов’язане: Розуміння стандартної помилки регресії
Коментарі
Це просто кількість спостережень у нашому наборі даних. У цьому прикладі загальна кількість спостережень становить 12 .
Перевірка загальної значущості регресійної моделі
У наступному розділі показано ступені свободи, суму квадратів, середні квадрати, F-статистику та загальну значущість регресійної моделі.
Ось як інтерпретувати кожне з чисел у цьому розділі:
Регресія ступенів свободи
Це число дорівнює: кількості коефіцієнтів регресії – 1. У цьому прикладі ми маємо вихідний термін і дві змінні предикторів, отже, ми маємо всього три коефіцієнти регресії, що означає, що ступені свободи регресії становлять 3 – 1 = 2 .
Сумарні ступені свободи
Це число дорівнює: кількість спостережень – 1. У цьому прикладі ми маємо 12 спостережень, тому загальна кількість ступенів свободи дорівнює 12 – 1 = 11 .
Залишкові ступені свободи
Це число дорівнює: total df – регресія df. У цьому прикладі залишкові ступені свободи дорівнюють 11 – 2 = 9 .
Середні квадрати
Середні квадрати регресії обчислюються за допомогою SS regression/df regression. У цьому прикладі регресія MS = 546,53308 / 2 = 273,2665 .
Залишкові середні квадрати розраховуються за залишком SS/залишком df. У цьому прикладі залишкова MS = 483,1335 / 9 = 53,68151 .
F статистика
Статистику f обчислюють як регресію MS/залишок MS. Ця статистика показує, чи регресійна модель забезпечує кращу відповідність даним, ніж модель, яка не містить незалежних змінних.
По суті, він перевіряє, чи є регресійна модель у цілому корисною. Як правило, якщо жодна зі змінних предиктора в моделі не є статистично значущою, загальна статистика F також не є статистично значущою.
У цьому прикладі F-статистика дорівнює 273,2665 / 53,68151 = 5,09 .
Важливість F (значення P)
Останнє значення в таблиці – це p-значення, пов’язане зі статистикою F. Щоб побачити, чи загальна регресійна модель є значущою, ви можете порівняти p-значення з рівнем значущості; типові варіанти: .01, .05 і .10.
Якщо p-значення нижче рівня значущості, є достатньо доказів, щоб зробити висновок, що регресійна модель краще відповідає даним, ніж модель без предикторної змінної. Цей результат є позитивним, оскільки це означає, що змінні предикторів моделі насправді покращують відповідність моделі.
У цьому прикладі p-значення становить 0,033 , що нижче звичайного рівня значущості 0,05. Це вказує на те, що регресійна модель в цілому є статистично значущою, тобто модель краще відповідає даним, ніж модель без змінних предиктора.
Перевірка загальної значущості регресійної моделі
У останньому розділі представлені оцінки коефіцієнтів, стандартна помилка оцінок, t-статистика, p-значення та довірчі інтервали для кожного члена регресійної моделі.
Ось як інтерпретувати кожне з чисел у цьому розділі:
Коефіцієнти
Коефіцієнти дають нам числа, необхідні для написання розрахункового рівняння регресії:
y hat = b 0 + b 1 x 1 + b 2 x 2 .
У цьому прикладі розраховане рівняння регресії таке:
підсумковий іспит = 66,99 + 1,299 (учбові години) + 1,117 (підготовчі іспити)
Кожен окремий коефіцієнт інтерпретується як середнє збільшення змінної відповіді для кожного збільшення на одну одиницю даної змінної предиктора, припускаючи, що всі інші змінні предиктора залишаються постійними. Наприклад, за кожну додаткову вивчену годину очікуваний середній приріст підсумкового іспиту становить 1299 балів, припускаючи, що кількість складених підготовчих іспитів залишається постійною.
Відрізок інтерпретується як очікувана середня оцінка на підсумковому іспиті для студента, який навчається нуль годин і не складає підготовчих іспитів. У цьому прикладі очікується, що студент отримає 66,99 балів, якщо він навчатиметься нуль годин і не складатиме підготовчих іспитів. Будьте обережні, інтерпретуючи відрізок результату регресії, оскільки це не завжди має сенс.
Наприклад, у деяких випадках перехоплення може виявитися негативним числом, яке часто не має очевидного тлумачення. Це не означає, що модель неправильна, це просто означає, що перехоплення саме по собі не слід інтерпретувати як щось означаюче.
Стандартна помилка, t-статистика та значення p
Стандартна помилка є мірою невизначеності навколо оцінки коефіцієнта для кожної змінної.
Т-стат – це просто коефіцієнт, поділений на стандартну помилку. Наприклад, t-stat для навчальних годин становить 1,299 / 0,417 = 3,117.
У наступному стовпці показано p-значення, пов’язане з t-stat. Це число говорить нам, чи є дана змінна відповіді значущою в моделі. У цьому прикладі ми бачимо, що p-value для навчальних годин становить 0,012, а p-value для підготовчих іспитів — 0,304. Це вказує на те, що навчальні години є суттєвим показником оцінки підсумкового іспиту, на відміну від практичних іспитів .
Довірчий інтервал для оцінок коефіцієнтів
Останні два стовпці таблиці містять нижню та верхню межі 95% довірчого інтервалу для оцінок коефіцієнтів.
Наприклад, оцінка коефіцієнта для навчальних годин становить 1,299, але навколо цієї оцінки є певна невизначеність. Ми ніколи не можемо знати напевно, чи це точний коефіцієнт. Таким чином, 95% довірчий інтервал дає нам діапазон ймовірних значень для справжнього коефіцієнта.
У цьому випадку 95% довірчий інтервал для навчальних годин становить (0,356, 2,24). Зверніть увагу, що цей довірчий інтервал не містить числа «0», що означає, що ми повністю впевнені, що справжнє значення коефіцієнта навчальних годин відмінне від нуля, тобто додатне число.
Навпаки, 95% довірчий інтервал для підготовчих іспитів становить (-1,201, 3,436). Зауважте, що цей довірчий інтервал містить число «0», яке означає, що справжнє значення коефіцієнта підготовчих іспитів може бути нульовим, тобто не мати суттєвого значення при прогнозуванні результатів випускного іспиту.
Додаткові ресурси
Розуміння нульової гіпотези для лінійної регресії
Розуміння тесту F для загальної значущості в регресії
Як повідомити про результати регресії