Как интерпретировать коэффициенты регрессии


В статистике регрессионный анализ — это метод, который можно использовать для анализа взаимосвязи между переменными-предикторами и переменной ответа.

Когда вы используете программное обеспечение (например, R , Stata , SPSS и т. д.) для выполнения регрессионного анализа, вы получите на выходе таблицу регрессии, обобщающую результаты регрессии.

Вероятно, наиболее важными числами в результате таблицы регрессии являются коэффициенты регрессии . Однако, несмотря на их важность, многим людям сложно правильно интерпретировать эти цифры.

В этом руководстве представлен пример регрессионного анализа и подробно объяснено, как интерпретировать коэффициенты регрессии, полученные в результате регрессии.

Связанный: Как читать и интерпретировать всю таблицу регрессии

Пример регрессионного анализа

Предположим, мы хотим выполнить регрессионный анализ, используя следующие переменные:

Переменные-предикторы

  • Общее количество изученных часов ( непрерывная переменная – от 0 до 20 )
  • Использовал ли студент репетитора ( категориальная переменная – «да» или «нет» )

Переменная ответа

  • Оценка экзамена ( непрерывная переменная – от 1 до 100 )

Мы хотим изучить взаимосвязь между переменными-предикторами и переменной ответа, чтобы увидеть, действительно ли количество учебных часов и то, использовал ли студент репетитора, существенное влияние на его оценку на экзамене.

Предположим, мы проводим регрессионный анализ и получаем следующий результат:

Срок Коэффициент Стандартная ошибка t Статистика P-значение
Перехват 48,56 14:32 3.39 0,002
Количество изученных часов 2.03 0,67 3.03 0,009
Репетитор 8.34 5,68 1,47 0,138

Давайте посмотрим, как интерпретировать каждый коэффициент регрессии.

Интерпретация перехвата

Исходный термин в таблице регрессии сообщает нам ожидаемое среднее значение переменной отклика, когда все переменные-предикторы равны нулю.

В этом примере коэффициент регрессии для начала координат равен 48,56 . Это означает, что для студента, который учился ноль часов ( Часы обучения = 0) и не пользовался услугами репетитора ( Tutor = 0), средний ожидаемый балл на экзамене составляет 48,56.

Важно отметить, что коэффициент регрессии для перехвата является значимым только в том случае, если разумно, что все переменные-предикторы в модели могут фактически быть равны нулю. В этом примере вполне возможно, что студент учился ноль часов ( Учебные часы = 0) , а также не пользовался услугами репетитора ( Тьютор = 0). Таким образом, интерпретация коэффициента регрессии перехвата имеет смысл в этом примере.

Однако в некоторых случаях коэффициент регрессии для перехвата не имеет существенного значения. Например, предположим, что мы провели регрессионный анализ, используя площадь в квадратных футах в качестве предикторной переменной и стоимость дома в качестве переменной ответа.

В выходной таблице регрессии коэффициент регрессии для исходного термина не будет иметь значимой интерпретации, поскольку площадь дома никогда не может быть равна нулю. В этом случае коэффициент регрессии для исходного термина просто закрепляет линию регрессии в нужном месте.

Интерпретация коэффициента непрерывной переменной-предиктора

Для непрерывной переменной-предиктора коэффициент регрессии представляет собой разницу между прогнозируемым значением переменной ответа для каждого изменения на одну единицу в переменной-предикторе, при условии, что все остальные переменные-предикторы остаются постоянными.

В этом примере количество изученных часов представляет собой непрерывную предикторную переменную в диапазоне от 0 до 20 часов. В некоторых случаях студент учился всего ноль часов, а в других случаях студент учился до 20 часов.

Из результата регрессии мы видим, что коэффициент регрессии для изученных часов составляет 2,03 . Это означает, что в среднем каждый дополнительный час обучения связан с повышением на 2,03 балла на итоговом экзамене, если предположить, что предикторная переменная Tutor остается постоянной.

Например, рассмотрим студента А, который учится 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 11 часов и пользуется услугами репетитора. Согласно результатам нашей регрессии, ожидается, что студент Б наберет на экзамене на 2,03 балла выше, чем студент А.

Значение p таблицы регрессии говорит нам, является ли этот коэффициент регрессии действительно статистически значимым или нет. Мы видим, что значение p для изученных часов составляет 0,009 , что статистически значимо при уровне альфа 0,05.

Примечание. Уровень альфа необходимо выбрать перед выполнением регрессионного анализа. Обычно для уровня альфа выбирают значения 0,01, 0,05 и 0,10.

Статья по теме: Объяснение значений P и их статистической значимости.

Интерпретация коэффициента категориальной переменной-предиктора

Для категориальной переменной-предиктора коэффициент регрессии представляет собой разницу в прогнозируемом значении переменной ответа между категорией, для которой переменная-предиктор = 0, и категорией, для которой переменная-предиктор = 1.

В этом примере Tutor — это категориальная переменная-предиктор, которая может принимать два разных значения:

  • 1 = студент пользовался услугами репетитора для подготовки к экзамену
  • 0 = студент не пользовался услугами репетитора для подготовки к экзамену

Из результата регрессии мы видим, что коэффициент регрессии для Tutor равен 8,34 . Это означает, что в среднем студент, который пользовался услугами репетитора, набрал на экзамене на 8,34 балла выше, чем студент, который не пользовался услугами репетитора, при условии, что предикторная переменная «Часы обучения» остается постоянной.

Например, рассмотрим студента А, который учится 10 часов и пользуется услугами репетитора. Также рассмотрим студента Б, который учится 10 часов и не пользуется услугами репетитора. Согласно результатам нашей регрессии, ожидается, что студент А получит экзаменационный балл на 8,34 балла выше, чем студент Б.

Значение p таблицы регрессии говорит нам, является ли этот коэффициент регрессии действительно статистически значимым или нет. Мы видим, что значение p для Tutor составляет 0,138 , что не является статистически значимым на уровне альфа 0,05. Это указывает на то, что, хотя студенты, которые пользовались услугами репетитора, показали лучшие результаты на экзамене, эта разница может быть связана с удачей.

Интерпретировать все коэффициенты сразу

Мы можем использовать все коэффициенты в таблице регрессии, чтобы создать следующее расчетное уравнение регрессии:

Ожидаемый результат экзамена = 48,56 + 2,03*(учебные часы) + 8,34*(репетитор)

Примечание . Имейте в виду, что переменная-предиктор «Tutor» не была статистически значимой на уровне альфа 0,05, поэтому вы можете удалить этот предиктор из модели и не использовать его в окончательной оценке уравнения регрессии.

Используя это расчетное уравнение регрессии, мы можем предсказать итоговую оценку студента на экзамене на основе общего количества часов обучения и того, пользовались ли они репетитором или нет.

Например, студент, который учился 10 часов и пользовался услугами репетитора, должен получить на экзамене следующую оценку:

Ожидаемый балл на экзамене = 48,56 + 2,03*(10) + 8,34*(1) = 77,2.

Учет корреляции при интерпретации коэффициентов регрессии

Важно помнить, что переменные-предикторы могут влиять друг на друга в регрессионной модели. Например, большинство переменных-предсказателей будут, по крайней мере, в некоторой степени связаны друг с другом (например, студент, который учится больше, с большей вероятностью будет пользоваться услугами репетитора).

Это означает, что коэффициенты регрессии будут меняться при добавлении или удалении из модели различных переменных-предикторов.

Хороший способ проверить, является ли корреляция между переменными-предикторами достаточно серьезной, чтобы серьезно повлиять на модель регрессии, — это проверить VIF между переменными-предикторами .

Это покажет вам, является ли корреляция между переменными-предикторами проблемой, которую необходимо решить, прежде чем принимать решение об интерпретации коэффициентов регрессии.

Если вы запустите простую модель линейной регрессии с одним предиктором, коррелированные переменные предиктора не будут проблемой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *