Как интерпретировать значения p в линейной регрессии (с примером)


В статистике модели линейной регрессии используются для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Каждый раз, когда вы выполняете регрессионный анализ с использованием статистического программного обеспечения, вы получаете таблицу регрессии, в которой суммируются результаты модели.

Двумя наиболее важными значениями в таблице регрессии являются коэффициенты регрессии и соответствующие им значения p .

P-значения говорят вам, существует ли статистически значимая связь между каждой переменной-предиктором и переменной ответа.

В следующем примере показано, как на практике интерпретировать p-значения модели множественной линейной регрессии .

Пример: интерпретация значений P в регрессионной модели

Предположим, мы хотим подогнать модель регрессии, используя следующие переменные:

Переменные-предикторы

  • Общее количество изученных часов (от 0 до 20)
  • Использовал ли студент репетитора (да или нет)

Переменная ответа

  • Оценка экзамена (от 0 до 100)

Мы хотим изучить взаимосвязь между переменными-предикторами и переменной ответа, чтобы выяснить, действительно ли часы обучения и репетиторства оказывают существенное влияние на результаты экзаменов.

Предположим, мы проводим регрессионный анализ и получаем следующий результат:

Срок Коэффициент Стандартная ошибка t Статистика P-значение
Перехват 48,56 14:32 3.39 0,002
Количество изученных часов 2.03 0,67 3.03 0,009
Репетитор 8.34 5,68 1,47 0,138

Вот как интерпретировать результат каждого члена модели:

Интерпретация значения P для перехвата

Исходный термин в таблице регрессии сообщает нам ожидаемое среднее значение переменной отклика, когда все переменные-предикторы равны нулю.

В этом примере коэффициент регрессии для начала координат равен 48,56 . Это означает, что для студента, проучившегося ноль часов , средний ожидаемый балл на экзамене составляет 48,56.

Значение p равно 0,002 , что говорит нам о том, что исходный термин статистически отличается от нуля.

На практике нас обычно не волнует значение p исходного термина. Даже если значение p не ниже определенного уровня значимости (например, 0,05), мы все равно сохраним исходный термин в модели.

Интерпретация значения P для непрерывной переменной-предиктора

В этом примере количество изученных часов представляет собой непрерывную предикторную переменную в диапазоне от 0 до 20 часов.

Из результата регрессии мы видим, что коэффициент регрессии для изученных часов составляет 2,03 . Это означает, что в среднем каждый дополнительный час обучения связан с повышением на 2,03 балла на выпускном экзамене, если предположить, что предикторная переменная Tutor остается постоянной.

Например, рассмотрим студента А, который учится 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 11 часов и пользуется услугами репетитора. Согласно результатам нашей регрессии, ожидается, что студент Б наберет на экзамене на 2,03 балла выше, чем студент А.

Соответствующее значение p составляет 0,009 , что статистически значимо при уровне альфа 0,05.

Это говорит нам о том, что среднее изменение баллов экзамена за каждый дополнительный изучаемый час статистически значимо отличается от нуля .

Другими словами: изученные часы имеют статистически значимую связь с переменной ответа на балл на экзамене .

Интерпретация значения P для категориальной переменной-предиктора

В этом примере Tutor — это категориальная переменная-предиктор, которая может принимать два разных значения:

  • 1 = студент пользовался услугами репетитора для подготовки к экзамену
  • 0 = студент не пользовался услугами репетитора для подготовки к экзамену

Из результата регрессии мы видим, что коэффициент регрессии для Tutor равен 8,34 . Это означает, что в среднем студент, который пользовался услугами репетитора, набрал на экзамене на 8,34 балла выше, чем студент, который не пользовался услугами репетитора, при условии, что предикторная переменная «Часы обучения» остается постоянной.

Например, рассмотрим студента А, который учится 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 10 часов и не пользуется услугами репетитора. Согласно результатам нашей регрессии, ожидается, что студент А получит экзаменационный балл на 8,34 балла выше, чем студент Б.

Соответствующее значение p составляет 0,138 , что не является статистически значимым при уровне альфа 0,05.

Это говорит нам о том, что среднее изменение результатов экзамена за каждый дополнительный изучаемый час статистически значимо не отличается от нуля .

Другими словами: переменная-предиктор Tutor не имеет статистически значимой связи с переменной ответа на балл на экзамене .

Это указывает на то, что, хотя студенты, которые пользовались услугами репетитора, показали лучшие результаты на экзамене, эта разница может быть связана с удачей.

Дополнительные ресурсы

Следующие руководства предоставляют дополнительную информацию о линейной регрессии:

Как интерпретировать тест F на общую значимость регрессии
Пять предположений множественной линейной регрессии
Понимание t-теста в линейной регрессии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *