Як інтерпретувати значення p у лінійній регресії (з прикладом)


У статистиці моделі лінійної регресії використовуються для кількісної оцінки зв’язку між однією або декількома змінними прогнозу та змінною відповіді .

Щоразу, коли ви виконуєте регресійний аналіз за допомогою статистичного програмного забезпечення, ви отримуватимете регресійну таблицю, яка підсумовує результати моделі.

Двома найважливішими значеннями в таблиці регресії є коефіцієнти регресії та відповідні їм p-значення .

P-значення повідомляють вам, чи існує статистично значущий зв’язок між кожною змінною предиктора та змінною відповіді.

У наступному прикладі показано, як на практиці інтерпретувати p-значення моделі множинної лінійної регресії .

Приклад: інтерпретація значень P у регресійній моделі

Припустімо, ми хочемо підібрати регресійну модель за такими змінними:

Прогностичні змінні

  • Загальна кількість вивчених годин (від 0 до 20)
  • Чи користувався студент репетитором (так чи ні)

Змінна відповіді

  • Оцінка іспиту (від 0 до 100)

Ми хочемо вивчити зв’язок між змінними-прогностиками та змінною-відповіддю, щоб з’ясувати, чи справді години навчання та репетиторства мають значний вплив на результати іспитів.

Припустимо, ми виконуємо регресійний аналіз і отримуємо такий результат:

термін Коефіцієнт Стандартна помилка t Статистика Р-значення
Перехоплення 48,56 14:32 3.39 0,002
Вивчені години 2.03 0,67 3.03 0,009
Репетитор 8.34 5.68 1.47 0,138

Ось як інтерпретувати результат кожного терміна в моделі:

Інтерпретація значення P для перетину

Вихідний термін у таблиці регресії повідомляє нам очікуване середнє значення для змінної відповіді, коли всі змінні предиктора дорівнюють нулю.

У цьому прикладі коефіцієнт регресії для початку координат дорівнює 48,56 . Це означає, що для студента, який навчався нуль годин , середній очікуваний іспитовий бал становить 48,56.

P-значення дорівнює 0,002 , що говорить нам, що початковий член статистично відрізняється від нуля.

На практиці ми зазвичай не дбаємо про p-значення для вихідного терміну. Навіть якщо p-значення не нижче певного рівня значущості (наприклад, 0,05), ми все одно збережемо початковий термін у моделі.

Інтерпретація P-значення для безперервної змінної предиктора

У цьому прикладі досліджувані години є безперервною змінною предиктора, яка коливається від 0 до 20 годин.

З результату регресії ми бачимо, що коефіцієнт регресії для досліджуваних годин становить 2,03 . Це означає, що в середньому кожна додаткова вивчена година пов’язана зі збільшенням на 2,03 бали на підсумковому іспиті, якщо припустити, що змінна-прогностика Репетитор залишається постійною.

Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента B, який навчається 11 годин і також використовує репетитора. Згідно з нашими результатами регресії, очікується, що студент Б отримає на іспиті вищий бал на 2,03 бала, ніж студент А.

Відповідне значення p становить 0,009 , що є статистично значущим на альфа-рівні 0,05.

Це говорить нам про те, що середня зміна балів за іспит за кожну додаткову вивчену годину статистично значно відрізняється від нуля .

Іншими словами: години, які вивчаються , мають статистично значущий зв’язок із змінною оцінки іспиту .

Інтерпретація P-значення для категоріальної змінної предиктора

У цьому прикладі Tutor є категоріальною змінною предиктором, яка може приймати два різних значення:

  • 1 = студент використовував репетитора для підготовки до іспиту
  • 0 = студент не користувався репетитором для підготовки до іспиту

З результату регресії ми бачимо, що коефіцієнт регресії для Tutor становить 8,34 . Це означає, що в середньому студент, який користувався послугами репетитора, набрав на іспиті вищий бал на 8,34 бала, ніж студент, який не користувався послугами репетитора, якщо припустити, що змінна-прогностика «Години вивчення» залишається постійною.

Наприклад, розглянемо студента А, який навчається 10 годин і користується послугами репетитора. Також розглянемо студента Б, який навчається 10 годин і не користується послугами репетитора. Згідно з нашими результатами регресії, очікується, що студент А матиме оцінку іспиту на 8,34 бали вище, ніж студент Б.

Відповідне значення p становить 0,138 , що не є статистично значущим на альфа-рівні 0,05.

Це говорить нам про те, що середня зміна балів за іспит за кожну додаткову вивчену годину статистично суттєво не відрізняється від нуля .

Іншими словами: змінна предиктора Tutor не має статистично значущого зв’язку зі змінною оцінки іспиту .

Це вказує на те, що хоча студенти, які користувалися послугами репетитора, показали кращі результати на іспиті, ця різниця могла бути пов’язана з везінням.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про лінійну регресію.

Як інтерпретувати тест F для загальної значущості в регресії
П’ять припущень множинної лінійної регресії
Розуміння t-тесту в лінійній регресії

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *