Линейная регрессия

В этой статье объясняется, что такое линейная регрессия и для чего она используется в статистике. Кроме того, вы сможете увидеть, как рассчитываются два типа линейной регрессии: простая линейная регрессия и множественная линейная регрессия.

Что такое линейная регрессия?

Линейная регрессия — это статистическая модель, которая связывает одну или несколько независимых переменных с зависимой переменной. Проще говоря, линейная регрессия — это метод, используемый для поиска уравнения, которое аппроксимирует взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика.

Например, уравнение y=2+ 5×1 -3×2 + 8×3 является моделью линейной регрессии, поскольку оно математически связывает три независимые переменные ( x1 , x2 , x3 ) с зависимой переменной (y) и, более того, связь между переменными линейная.

Типы линейной регрессии

Существует два типа линейной регрессии :

  • Простая линейная регрессия : одна независимая переменная связана с зависимой переменной. Таким образом, уравнение для этого типа модели линейной регрессии имеет форму y=β 01 x 1 .
  • Множественная линейная регрессия : модель регрессии имеет несколько объясняющих переменных и переменную отклика. Следовательно, уравнение для этого типа модели линейной регрессии имеет вид y=β 01 x 12 x 2 …+β m x m .

простая линейная регрессия

Простая линейная регрессия используется для связи одной независимой переменной с обеими переменными.

Уравнение простой модели линейной регрессии представляет собой прямую линию, поэтому оно состоит из двух коэффициентов: константы уравнения (β 0 ) и коэффициента корреляции между двумя переменными (β 1 ). Следовательно, уравнение простой модели линейной регрессии имеет вид y=β 01 x.

y=\beta_0+\beta_1x

Формулы расчета коэффициентов простой линейной регрессии следующие:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Золото:

  • \beta_0

    – константа линии регрессии.

  • \beta_1

    – наклон линии регрессии.

  • x_i

    — значение независимой переменной X данных i.

  • y_i

    — значение зависимой переменной Y данных i.

  • \overline{x}

    представляет собой среднее значение независимой переменной

  • \overline{y}

    представляет собой среднее значение зависимой переменной Y.

Множественная линейная регрессия

В модель множественной линейной регрессии включены как минимум две независимые переменные. Другими словами, множественная линейная регрессия позволяет линейно связать несколько объясняющих переменных с переменной отклика.

Уравнение модели множественной линейной регрессии: y=β 01 x 12 x 2 +…+β m x m +ε.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Золото:

  • y

    является зависимой переменной.

  • x_i

    – независимая переменная i.

  • \beta_0

    — константа уравнения множественной линейной регрессии.

  • \beta_i

    коэффициент регрессии, связанный с переменной

    x_i

    .

  • \bm{\varepsilon}

    — это ошибка или остаток, то есть разница между наблюдаемым значением и значением, оцененным моделью.

  • m

    — общее количество переменных в модели.

Итак, если у нас есть образец с общим количеством

n

наблюдения, мы можем представить модель множественной линейной регрессии в матричной форме:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

Приведенное выше матричное выражение можно переписать, присвоив каждой матрице букву:

Y=X\beta+\varepsilon

Таким образом, применяя критерий наименьших квадратов, мы можем прийти к формуле для оценки коэффициентов модели множественной линейной регрессии :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Однако применение этой формулы очень трудоемко и требует много времени, поэтому на практике рекомендуется использовать компьютерное программное обеспечение (например, Minitab или Excel), позволяющее гораздо быстрее создать модель множественной регрессии.

Предположения линейной регрессии

В модели линейной регрессии для того, чтобы модель была действительной, должны быть выполнены следующие условия:

  • Независимость : остатки должны быть независимы друг от друга. Распространенный способ обеспечить независимость модели — добавить случайность в процесс выборки.
  • Гомоскедастичность : дисперсии остатков должны быть однородными, то есть изменчивость остатков должна быть постоянной.
  • Немультиколлинеарность : объясняющие переменные, включенные в модель, не могут быть связаны друг с другом или, по крайней мере, их связь должна быть очень слабой.
  • Нормальность : остатки должны быть нормально распределены или, другими словами, они должны следовать нормальному распределению со средним значением 0.
  • Линейность : предполагается, что связь между переменной отклика и объясняющими переменными является линейной.

Для чего используется линейная регрессия?

Линейная регрессия в основном имеет два применения: линейная регрессия используется для объяснения взаимосвязи между объясняющими переменными и переменной ответа, и аналогичным образом линейная регрессия используется для прогнозирования значения зависимой переменной для нового наблюдения.

Получив уравнение модели линейной регрессии, мы можем узнать, какой тип связи существует между переменными в модели. Если коэффициент регрессии независимой переменной положителен, зависимая переменная будет увеличиваться при ее увеличении. тогда как, если коэффициент регрессии независимой переменной отрицательный, зависимая переменная будет уменьшаться при ее увеличении.

С другой стороны, уравнение, рассчитанное с помощью линейной регрессии, также позволяет делать прогнозы значений. Таким образом, вводя значения объясняющих переменных в уравнение модели, мы можем рассчитать значение зависимой переменной для нового фрагмента данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *