Як інтерпретувати коефіцієнти регресії
У статистиці регресійний аналіз — це техніка, яка може бути використана для аналізу зв’язку між змінними предикторів і змінною відповіді.
Якщо ви використовуєте програмне забезпечення (наприклад, R , Stata , SPSS тощо) для виконання регресійного аналізу, ви отримаєте на виході таблицю регресії, у якій узагальнюються результати регресії.
Можливо, найважливішими числами в результатах таблиці регресії є коефіцієнти регресії . Проте, незважаючи на їхню важливість, багатьом людям важко правильно інтерпретувати ці числа.
У цьому підручнику представлено приклад регресійного аналізу та детально пояснено, як інтерпретувати коефіцієнти регресії, отримані в результаті регресії.
Пов’язане: Як прочитати та інтерпретувати всю таблицю регресії
Приклад регресійного аналізу
Припустімо, ми хочемо виконати регресійний аналіз з використанням таких змінних:
Прогностичні змінні
- Загальна кількість вивчених годин ( постійна змінна – від 0 до 20 )
- Чи користувався студент репетитором ( категоріальна змінна – «так» чи «ні» )
Змінна відповіді
- Оцінка іспиту ( постійна змінна – від 1 до 100 )
Ми хочемо вивчити зв’язок між змінними-прогнозами та змінною-відповіддю, щоб побачити, чи вивчені години та чи справді студент користувався репетитором суттєво впливають на його оцінку іспиту.
Припустимо, ми виконуємо регресійний аналіз і отримуємо такий результат:
термін | Коефіцієнт | Стандартна помилка | t Статистика | Р-значення |
---|---|---|---|---|
Перехоплення | 48,56 | 14:32 | 3.39 | 0,002 |
Вивчені години | 2.03 | 0,67 | 3.03 | 0,009 |
Репетитор | 8.34 | 5.68 | 1.47 | 0,138 |
Давайте подивимося, як інтерпретувати кожен коефіцієнт регресії.
Інтерпретація перехоплення
Вихідний термін у таблиці регресії повідомляє нам очікуване середнє значення для змінної відповіді, коли всі змінні предиктора дорівнюють нулю.
У цьому прикладі коефіцієнт регресії для початку координат дорівнює 48,56 . Це означає, що для студента, який навчався нуль годин ( вивчених годин = 0) і не користувався репетитором ( репетитор = 0), середній очікуваний бал іспиту становить 48,56.
Важливо зазначити, що коефіцієнт регресії для перетину є значущим лише тоді, коли розумно, що всі змінні предиктора в моделі можуть фактично дорівнювати нулю. У цьому прикладі цілком можливо, що студент навчався нуль годин ( вивчених годин = 0) , а також не користувався репетитором ( репетитор = 0). Таким чином, інтерпретація коефіцієнта регресії перетину має значення в цьому прикладі.
У деяких випадках, однак, коефіцієнт регресії для перетину незначний. Наприклад, припустімо, що ми виконали регресійний аналіз, використовуючи квадратні метри як змінну прогнозу та вартість будинку як змінну відповіді.
У вихідній таблиці регресії коефіцієнт регресії для вихідного терміну не матиме значущого тлумачення, оскільки площа будинку ніколи не може дорівнювати нулю. У цьому випадку коефіцієнт регресії для вихідного члена просто закріплює лінію регресії в потрібному місці.
Інтерпретація коефіцієнта безперервної предикторної змінної
Для безперервної змінної предиктора коефіцієнт регресії представляє різницю між прогнозованим значенням змінної відповіді для кожної одиничної зміни змінної предиктора, припускаючи, що всі інші змінні предиктора залишаються постійними.
У цьому прикладі досліджувані години є безперервною змінною предиктора, яка коливається від 0 до 20 годин. В одних випадках студент навчався лише нуль годин, а в інших – до 20 годин.
З результату регресії ми бачимо, що коефіцієнт регресії для досліджуваних годин становить 2,03 . Це означає, що в середньому кожна додаткова вивчена година пов’язана зі збільшенням на 2,03 бали на підсумковому іспиті, якщо припустити, що змінна-прогностика Репетитор залишається постійною.
Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента B, який навчається 11 годин і також використовує репетитора. Згідно з нашими результатами регресії, очікується, що студент Б отримає на іспиті вищий бал на 2,03 бала, ніж студент А.
P-значення таблиці регресії говорить нам, чи є цей коефіцієнт регресії справді статистично значущим чи ні. Ми бачимо, що p-значення для досліджуваних годин становить 0,009 , що є статистично значущим на альфа-рівні 0,05.
Примітка. Перед виконанням регресійного аналізу потрібно вибрати альфа-рівень – загальні варіанти альфа-рівня: 0,01, 0,05 і 0,10.
Пов’язана стаття: Пояснення значень P та їх статистична значущість
Інтерпретація коефіцієнта категоріальної предикторної змінної
Для категоріальної змінної предиктора коефіцієнт регресії представляє різницю в прогнозованому значенні змінної відповіді між категорією, для якої змінна предиктора = 0, і категорією, для якої змінна предиктора = 1.
У цьому прикладі Tutor є категоріальною змінною предиктором, яка може приймати два різних значення:
- 1 = студент використовував репетитора для підготовки до іспиту
- 0 = студент не користувався репетитором для підготовки до іспиту
З результату регресії ми бачимо, що коефіцієнт регресії для Tutor становить 8,34 . Це означає, що в середньому студент, який користувався послугами репетитора, набрав на іспиті вищий бал на 8,34 бала, ніж студент, який не користувався послугами репетитора, якщо припустити, що змінна-прогностика «Години вивчення» залишається постійною.
Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента Б, який навчається 10 годин і не користується послугами репетитора. Згідно з нашими результатами регресії, очікується, що студент А матиме оцінку іспиту на 8,34 бали вище, ніж студент Б.
P-значення таблиці регресії говорить нам, чи є цей коефіцієнт регресії справді статистично значущим чи ні. Ми бачимо, що p-значення для Tutor становить 0,138 , що не є статистично значущим на альфа-рівні 0,05. Це вказує на те, що хоча студенти, які користувалися послугами репетитора, показали кращі результати на іспиті, ця різниця могла бути пов’язана з везінням.
Інтерпретуйте всі коефіцієнти одночасно
Ми можемо використати всі коефіцієнти в таблиці регресії, щоб створити наступне розрахункове рівняння регресії:
Очікувана оцінка за іспит = 48,56 + 2,03*(вивчені години) + 8,34*(репетитор)
Примітка : майте на увазі, що змінна предиктора «Наставник» не була статистично значущою на рівні 0,05 альфа, тому ви можете видалити цей предиктор із моделі та не використовувати його в остаточній оцінці рівняння регресії.
Використовуючи це розраховане рівняння регресії, ми можемо передбачити оцінку студента на підсумковому іспиті на основі їх загальної кількості годин навчання та того, чи користувався він репетитором.
Наприклад, студент, який навчався 10 годин і користувався репетитором, повинен отримати іспитовий бал:
Очікувана оцінка за іспит = 48,56 + 2,03*(10) + 8,34*(1) = 77,2
Врахування кореляції при інтерпретації коефіцієнтів регресії
Важливо мати на увазі, що змінні предикторів можуть впливати одна на одну в регресійній моделі. Наприклад, більшість прогностичних змінних будуть принаймні певною мірою пов’язані між собою (наприклад, студент, який більше вчиться, швидше за все, буде користуватися репетитором).
Це означає, що коефіцієнти регресії будуть змінюватися, коли різні змінні предиктора додаються або вилучаються з моделі.
Хороший спосіб побачити, чи кореляція між змінними предикторами є достатньо сильною, щоб серйозно вплинути на регресійну модель, це перевірити VIF між змінними предикторами .
Це покаже вам, чи є кореляція між змінними прогнозу проблемою, яку потрібно вирішити, перш ніж приймати рішення про інтерпретацію коефіцієнтів регресії.
Якщо ви запускаєте просту модель лінійної регресії з одним предиктором, корельовані змінні предиктора не будуть проблемою.