Множественная линейная регрессия

К бенджамин андерсон 2 августа, 2023 Статистика 0 комментариев

В этой статье объясняется, что такое множественная линейная регрессия в статистике. Кроме того, вы узнаете, как создать модель множественной линейной регрессии и как ее интерпретировать.

Что такое множественная линейная регрессия?

Множественная линейная регрессия — это модель регрессии, в которую включены две или более независимые переменные. Другими словами, множественная линейная регрессия — это статистическая модель, которая позволяет линейно связать несколько объясняющих переменных с переменной отклика.

Поэтому модель множественной линейной регрессии используется для поиска уравнения, которое связывает две или более независимых переменных с зависимой переменной. Таким образом, подставляя значение каждой независимой переменной, получают аппроксимацию значения зависимой переменной.

Например, уравнение y=3+ _6×1 _-4×2 + _7×3 представляет собой модель множественной линейной регрессии, поскольку оно математически связывает три независимые переменные ( _x1 , _x2 , _x3 ) с одной зависимой переменной (y) путем линейного значения. .

Формула множественной линейной регрессии

Уравнение модели множественной линейной регрессии: y=β ₀ +β ₁ x ₁ +β ₂ x ₂ +…+β _m x _m +ε.

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Золото:

$y$

является зависимой переменной.
$x_i$

– независимая переменная i.
$\beta_0$

— константа уравнения множественной линейной регрессии.
$\beta_i$

коэффициент регрессии, связанный с переменной

$x_i$

.
$\bm{\varepsilon}$

Это ошибка или остаток, то есть разница между наблюдаемым значением и значением, оцененным моделью.
$m$

— общее количество переменных в модели.

Итак, если у нас есть образец с общим количеством

$n$

наблюдений мы можем предложить модель множественной линейной регрессии в матричной форме:

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

Выражение массива, приведенное выше, можно переписать, присвоив букву каждому массиву:

$Y=X\beta+\varepsilon$

Таким образом, применив критерий наименьших квадратов, можно прийти к формуле оценки коэффициентов модели множественной линейной регрессии :

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

Однако применение этой формулы очень трудоемко и требует много времени, поэтому на практике рекомендуется использовать компьютерное программное обеспечение (например, Minitab или Excel), которое позволяет гораздо быстрее прогонять множественную регрессионную модель.

Множественные предположения линейной регрессии

В модели множественной линейной регрессии для того, чтобы модель была действительной, должны быть выполнены следующие условия:

Независимость : остатки должны быть независимы друг от друга. Распространенный способ обеспечить независимость модели — добавить случайность в процесс выборки.
Гомоскедастичность : дисперсии остатков должны быть однородными, то есть изменчивость остатков должна быть постоянной.
Немультиколлинеарность : объясняющие переменные, включенные в модель, не могут быть связаны друг с другом или, по крайней мере, их связь должна быть очень слабой.
Нормальность : остатки должны быть нормально распределены или, другими словами, они должны следовать нормальному распределению со средним значением 0.
Линейность : Предполагается, что связь между переменной ответа и объясняющими переменными является линейной.

Интерпретация модели множественной линейной регрессии

Чтобы интерпретировать модель множественной линейной регрессии, мы должны посмотреть на коэффициент детерминации (R в квадрате), который выражает процент, объясняемый моделью регрессии. Таким образом, чем выше коэффициент детерминации, тем больше модель будет адаптирована к изучаемой выборке данных.

➤ См.: Коэффициент детерминации (R в квадрате).

Однако степень соответствия статистической модели может вводить в заблуждение, особенно в моделях множественной линейной регрессии. Потому что при добавлении переменной в модель коэффициент детерминации увеличивается, даже если переменная не является значимой. Однако необходимо максимизировать коэффициент детерминации, пытаясь минимизировать количество переменных, поскольку модель менее сложна и ее легче интерпретировать.

Чтобы решить эту проблему, необходимо рассчитать скорректированный коэффициент детерминации (скорректированный R-квадрат), который представляет собой статистический коэффициент, измеряющий качество соответствия регрессионной модели, наказывающий за каждую добавленную в модель переменную, в отличие от нескорректированного коэффициента. решимости. при этом не учитывается количество переменных в модели.

Таким образом, скорректированный коэффициент детерминации позволяет сравнить степень соответствия двух моделей с разным количеством переменных. В принципе, следует выбрать модель с более высоким скорректированным коэффициентом детерминации, но если две модели имеют очень похожие значения, лучше выбрать модель с меньшим количеством переменных, поскольку ее легче интерпретировать.

➤ См.: Скорректированный коэффициент детерминации (скорректированный R-квадрат).

Напротив, коэффициенты регрессии указывают на связь между объясняющей переменной и переменной ответа. Если коэффициент регрессии положителен, переменная ответа будет увеличиваться по мере увеличения объясняющей переменной. тогда как, если коэффициент регрессии отрицательный, переменная ответа будет уменьшаться при увеличении объясняющей переменной.

Логично, что для выполнения предыдущего условия другие переменные должны оставаться постоянными. Вот почему важно, чтобы между различными объясняющими переменными модели не было мультиколлинеарности. Посмотреть, как изучается мультиколлинеарность модели, можно, выполнив поиск соответствующей статьи на нашем сайте.

Множественная и простая линейная регрессия

Наконец, мы увидим, каковы различия между простой моделью линейной регрессии и моделью множественной линейной регрессии, поскольку это две модели регрессии, широко используемые в статистике.

Простая линейная регрессия — это модель регрессии, используемая для связи независимой переменной. Итак, уравнение простой модели линейной регрессии выглядит следующим образом:

$y=\beta_0+\beta_1x_1+\varepsilon$

Следовательно, разница между множественной линейной регрессией и простой линейной регрессией заключается в количестве объясняющих переменных. Модель множественной линейной регрессии имеет две или более объясняющие переменные, тогда как модель простой линейной регрессии имеет только одну объясняющую переменную.

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

В заключение отметим, что множественная линейная регрессия является расширением простой линейной регрессии, поскольку просто добавляется больше объясняющих переменных и соответствующих им коэффициентов регрессии. Однако коэффициенты регрессии рассчитываются по-другому. Чтобы узнать, как это делается, нажмите здесь:

➤ См.: Простая линейная регрессия.

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше