Як інтерпретувати значення p у лінійній регресії (з прикладом)
У статистиці моделі лінійної регресії використовуються для кількісної оцінки зв’язку між однією або декількома змінними прогнозу та змінною відповіді .
Щоразу, коли ви виконуєте регресійний аналіз за допомогою статистичного програмного забезпечення, ви отримуватимете регресійну таблицю, яка підсумовує результати моделі.
Двома найважливішими значеннями в таблиці регресії є коефіцієнти регресії та відповідні їм p-значення .
P-значення повідомляють вам, чи існує статистично значущий зв’язок між кожною змінною предиктора та змінною відповіді.
У наступному прикладі показано, як на практиці інтерпретувати p-значення моделі множинної лінійної регресії .
Приклад: інтерпретація значень P у регресійній моделі
Припустімо, ми хочемо підібрати регресійну модель за такими змінними:
Прогностичні змінні
- Загальна кількість вивчених годин (від 0 до 20)
- Чи користувався студент репетитором (так чи ні)
Змінна відповіді
- Оцінка іспиту (від 0 до 100)
Ми хочемо вивчити зв’язок між змінними-прогностиками та змінною-відповіддю, щоб з’ясувати, чи справді години навчання та репетиторства мають значний вплив на результати іспитів.
Припустимо, ми виконуємо регресійний аналіз і отримуємо такий результат:
термін | Коефіцієнт | Стандартна помилка | t Статистика | Р-значення |
---|---|---|---|---|
Перехоплення | 48,56 | 14:32 | 3.39 | 0,002 |
Вивчені години | 2.03 | 0,67 | 3.03 | 0,009 |
Репетитор | 8.34 | 5.68 | 1.47 | 0,138 |
Ось як інтерпретувати результат кожного терміна в моделі:
Інтерпретація значення P для перетину
Вихідний термін у таблиці регресії повідомляє нам очікуване середнє значення для змінної відповіді, коли всі змінні предиктора дорівнюють нулю.
У цьому прикладі коефіцієнт регресії для початку координат дорівнює 48,56 . Це означає, що для студента, який навчався нуль годин , середній очікуваний іспитовий бал становить 48,56.
P-значення дорівнює 0,002 , що говорить нам, що початковий член статистично відрізняється від нуля.
На практиці ми зазвичай не дбаємо про p-значення для вихідного терміну. Навіть якщо p-значення не нижче певного рівня значущості (наприклад, 0,05), ми все одно збережемо початковий термін у моделі.
Інтерпретація P-значення для безперервної змінної предиктора
У цьому прикладі досліджувані години є безперервною змінною предиктора, яка коливається від 0 до 20 годин.
З результату регресії ми бачимо, що коефіцієнт регресії для досліджуваних годин становить 2,03 . Це означає, що в середньому кожна додаткова вивчена година пов’язана зі збільшенням на 2,03 бали на підсумковому іспиті, якщо припустити, що змінна-прогностика Репетитор залишається постійною.
Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента B, який навчається 11 годин і також використовує репетитора. Згідно з нашими результатами регресії, очікується, що студент Б отримає на іспиті вищий бал на 2,03 бала, ніж студент А.
Відповідне значення p становить 0,009 , що є статистично значущим на альфа-рівні 0,05.
Це говорить нам про те, що середня зміна балів за іспит за кожну додаткову вивчену годину статистично значно відрізняється від нуля .
Іншими словами: години, які вивчаються , мають статистично значущий зв’язок із змінною оцінки іспиту .
Інтерпретація P-значення для категоріальної змінної предиктора
У цьому прикладі Tutor є категоріальною змінною предиктором, яка може приймати два різних значення:
- 1 = студент використовував репетитора для підготовки до іспиту
- 0 = студент не користувався репетитором для підготовки до іспиту
З результату регресії ми бачимо, що коефіцієнт регресії для Tutor становить 8,34 . Це означає, що в середньому студент, який користувався послугами репетитора, набрав на іспиті вищий бал на 8,34 бала, ніж студент, який не користувався послугами репетитора, якщо припустити, що змінна-прогностика «Години вивчення» залишається постійною.
Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента Б, який навчається 10 годин і не користується послугами репетитора. Згідно з нашими результатами регресії, очікується, що студент А матиме оцінку іспиту на 8,34 бали вище, ніж студент Б.
Відповідне значення p становить 0,138 , що не є статистично значущим на альфа-рівні 0,05.
Це говорить нам про те, що середня зміна балів за іспит за кожну додаткову вивчену годину статистично суттєво не відрізняється від нуля .
Іншими словами: змінна предиктора Tutor не має статистично значущого зв’язку зі змінною оцінки іспиту .
Це вказує на те, що хоча студенти, які користувалися послугами репетитора, показали кращі результати на іспиті, ця різниця могла бути пов’язана з везінням.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про лінійну регресію.
Як інтерпретувати тест F для загальної значущості в регресії
П’ять припущень множинної лінійної регресії
Розуміння t-тесту в лінійній регресії