Введение в множественную линейную регрессию


Когда мы хотим понять взаимосвязь между одной переменной-предиктором и переменной отклика, мы часто используем простую линейную регрессию .

Однако, если мы хотим понять взаимосвязь между несколькими переменными-предикторами и переменной ответа, мы можем использовать множественную линейную регрессию .

Если у нас есть p переменных-предикторов, то модель множественной линейной регрессии принимает форму:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Золото:

  • Y : переменная ответа
  • X j : j- я прогнозируемая переменная
  • β j : Среднее влияние на Y увеличения X j на одну единицу, при этом все остальные предикторы остаются фиксированными.
  • ε : Погрешность

Значения β 0 , β 1 , B 2 , …, β p выбираются методом наименьших квадратов , который минимизирует сумму квадратов остатков (RSS):

RSS = Σ(y i – ŷ i ) 2

Золото:

  • Σ : греческий символ, означающий сумму.
  • y i : фактическое значение ответа для i-го наблюдения
  • ŷ i : прогнозируемое значение ответа на основе модели множественной линейной регрессии.

Метод, используемый для нахождения этих оценок коэффициентов, связан с матричной алгеброй, и мы не будем здесь вдаваться в подробности. К счастью, любое статистическое программное обеспечение может рассчитать эти коэффициенты за вас.

Как интерпретировать результаты множественной линейной регрессии

Предположим, мы подгоняем модель множественной линейной регрессии, используя переменные-предикторы , часы обучения и сданные подготовительные экзамены , а также переменную ответа на экзамене .

На следующем снимке экрана показано, как может выглядеть результат множественной линейной регрессии для этой модели:

Примечание. На снимке экрана ниже показаны выходные данные множественной линейной регрессии для Excel , но числа, показанные в выходных данных, типичны для выходных данных регрессии, которые вы увидите с помощью любого статистического программного обеспечения.

Интерпретация результатов множественной линейной регрессии

По результатам модели коэффициенты позволяют сформировать расчетную модель множественной линейной регрессии:

Экзаменационный балл = 67,67 + 5,56*(часы) – 0,60*(подготовительные экзамены)

Интерпретация коэффициентов следующая:

  • Каждое дополнительное увеличение количества учебных часов на одну единицу связано со средним увеличением экзаменационной оценки на 5,56 балла при условии, что практические экзамены остаются постоянными.
  • Каждое дополнительное увеличение количества сданных подготовительных экзаменов на одну единицу связано со снижением экзаменационной оценки в среднем на 0,60 балла при условии, что количество учебных часов остается постоянным.

Мы также можем использовать эту модель для определения ожидаемой оценки за экзамен, которую получит студент, на основе общего количества учебных часов и сданных подготовительных экзаменов. Например, студент, который учится 4 часа и сдает 1 подготовительный экзамен, должен набрать экзаменационный балл 89,31 :

Оценка на экзамене = 67,67 + 5,56*(4) -0,60*(1) = 89,31

Вот как интерпретировать остальные результаты модели:

  • R-квадрат: это называется коэффициентом детерминации. Это доля дисперсии переменной отклика, которую можно объяснить объясняющими переменными. В этом примере 73,4% разницы в экзаменационных баллах объясняется количеством учебных часов и количеством сданных подготовительных экзаменов.
  • Стандартная ошибка: это среднее расстояние между наблюдаемыми значениями и линией регрессии. В данном примере наблюдаемые значения отклоняются в среднем на 5366 единиц от линии регрессии.
  • F: это общая статистика F для регрессионной модели, рассчитанная как регрессия MS/остаточная MS.
  • Значение F: это значение p, связанное с общей статистикой F. Это говорит нам, является ли регрессионная модель в целом статистически значимой или нет. Другими словами, он говорит нам, имеют ли две объединенные объясняющие переменные статистически значимую связь с переменной ответа. В этом случае значение p меньше 0,05, что указывает на то, что объясняющие переменные, часы обучения и сданные подготовительные экзамены вместе взятые имеют статистически значимую связь с результатом экзамена.
  • P значения коэффициента. Отдельные значения p говорят нам, является ли каждая объясняющая переменная статистически значимой или нет. Мы видим, что количество учебных часов является статистически значимым (p = 0,00), в то время как сданные подготовительные экзамены (p = 0,52) не являются статистически значимыми при α = 0,05. Поскольку прошлые подготовительные экзамены не являются статистически значимыми, мы можем в конечном итоге принять решение удалить их из модели.

Как оценить соответствие модели множественной линейной регрессии

Для оценки того, насколько хорошо модель множественной линейной регрессии «подходит» набору данных, обычно используются два числа:

1. R-квадрат: это доля дисперсии переменной ответа , которую можно объяснить переменными-предикторами.

Значение R-квадрата может находиться в диапазоне от 0 до 1. Значение 0 указывает на то, что переменная ответа вообще не может быть объяснена переменной-предиктором. Значение 1 указывает на то, что переменная ответа может быть полностью без ошибок объяснена переменной-предиктором.

Чем выше R-квадрат модели, тем лучше модель соответствует данным.

2. Стандартная ошибка: это среднее расстояние между наблюдаемыми значениями и линией регрессии. Чем меньше стандартная ошибка, тем лучше модель может соответствовать данным.

Если мы хотим делать прогнозы с использованием регрессионной модели, стандартная ошибка регрессии может быть более полезной метрикой, чем R-квадрат, поскольку она дает нам представление о том, насколько точны наши прогнозы в единицах измерения.

Полное объяснение плюсов и минусов использования R-квадрата по сравнению со стандартной ошибкой для оценки соответствия модели см. в следующих статьях:

Множественные предположения линейной регрессии

Множественная линейная регрессия делает четыре ключевых предположения о данных:

1. Линейная связь. Между независимой переменной x и зависимой переменной y существует линейная связь.

2. Независимость: остатки независимы. В частности, нет корреляции между последовательными остатками в данных временных рядов.

3. Гомоскедастичность: остатки имеют постоянную дисперсию на каждом уровне x.

4. Нормальность: остатки модели имеют нормальное распределение.

Полное объяснение того, как проверить эти гипотезы, можно найти в этой статье .

Множественная линейная регрессия с использованием программного обеспечения

В следующих руководствах представлены пошаговые примеры выполнения множественной линейной регрессии с использованием различного статистического программного обеспечения:

Как выполнить множественную линейную регрессию в R
Как выполнить множественную линейную регрессию в Python
Как выполнить множественную линейную регрессию в Excel
Как выполнить множественную линейную регрессию в SPSS
Как выполнить множественную линейную регрессию в Stata
Как выполнить линейную регрессию в Google Sheets

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *