Линейная регрессия
В этой статье объясняется, что такое линейная регрессия и для чего она используется в статистике. Кроме того, вы сможете увидеть, как рассчитываются два типа линейной регрессии: простая линейная регрессия и множественная линейная регрессия.
Что такое линейная регрессия?
Линейная регрессия — это статистическая модель, которая связывает одну или несколько независимых переменных с зависимой переменной. Проще говоря, линейная регрессия — это метод, используемый для поиска уравнения, которое аппроксимирует взаимосвязь между одной или несколькими объясняющими переменными и переменной отклика.
Например, уравнение y=2+ 5×1 -3×2 + 8×3 является моделью линейной регрессии, поскольку оно математически связывает три независимые переменные ( x1 , x2 , x3 ) с зависимой переменной (y) и, более того, связь между переменными линейная.
Типы линейной регрессии
Существует два типа линейной регрессии :
- Простая линейная регрессия : одна независимая переменная связана с зависимой переменной. Таким образом, уравнение для этого типа модели линейной регрессии имеет форму y=β 0 +β 1 x 1 .
- Множественная линейная регрессия : модель регрессии имеет несколько объясняющих переменных и переменную отклика. Следовательно, уравнение для этого типа модели линейной регрессии имеет вид y=β 0 +β 1 x 1 +β 2 x 2 …+β m x m .
простая линейная регрессия
Простая линейная регрессия используется для связи одной независимой переменной с обеими переменными.
Уравнение простой модели линейной регрессии представляет собой прямую линию, поэтому оно состоит из двух коэффициентов: константы уравнения (β 0 ) и коэффициента корреляции между двумя переменными (β 1 ). Следовательно, уравнение простой модели линейной регрессии имеет вид y=β 0 +β 1 x.
Формулы расчета коэффициентов простой линейной регрессии следующие:
Золото:
-
– константа линии регрессии.
-
– наклон линии регрессии.
-
— значение независимой переменной X данных i.
-
— значение зависимой переменной Y данных i.
-
представляет собой среднее значение независимой переменной
-
представляет собой среднее значение зависимой переменной Y.
Множественная линейная регрессия
В модель множественной линейной регрессии включены как минимум две независимые переменные. Другими словами, множественная линейная регрессия позволяет линейно связать несколько объясняющих переменных с переменной отклика.
Уравнение модели множественной линейной регрессии: y=β 0 +β 1 x 1 +β 2 x 2 +…+β m x m +ε.
Золото:
-
является зависимой переменной.
-
– независимая переменная i.
-
— константа уравнения множественной линейной регрессии.
-
коэффициент регрессии, связанный с переменной
.
-
— это ошибка или остаток, то есть разница между наблюдаемым значением и значением, оцененным моделью.
-
— общее количество переменных в модели.
Итак, если у нас есть образец с общим количеством
наблюдения, мы можем представить модель множественной линейной регрессии в матричной форме:
Приведенное выше матричное выражение можно переписать, присвоив каждой матрице букву:
Таким образом, применяя критерий наименьших квадратов, мы можем прийти к формуле для оценки коэффициентов модели множественной линейной регрессии :
Однако применение этой формулы очень трудоемко и требует много времени, поэтому на практике рекомендуется использовать компьютерное программное обеспечение (например, Minitab или Excel), позволяющее гораздо быстрее создать модель множественной регрессии.
Предположения линейной регрессии
В модели линейной регрессии для того, чтобы модель была действительной, должны быть выполнены следующие условия:
- Независимость : остатки должны быть независимы друг от друга. Распространенный способ обеспечить независимость модели — добавить случайность в процесс выборки.
- Гомоскедастичность : дисперсии остатков должны быть однородными, то есть изменчивость остатков должна быть постоянной.
- Немультиколлинеарность : объясняющие переменные, включенные в модель, не могут быть связаны друг с другом или, по крайней мере, их связь должна быть очень слабой.
- Нормальность : остатки должны быть нормально распределены или, другими словами, они должны следовать нормальному распределению со средним значением 0.
- Линейность : предполагается, что связь между переменной отклика и объясняющими переменными является линейной.
Для чего используется линейная регрессия?
Линейная регрессия в основном имеет два применения: линейная регрессия используется для объяснения взаимосвязи между объясняющими переменными и переменной ответа, и аналогичным образом линейная регрессия используется для прогнозирования значения зависимой переменной для нового наблюдения.
Получив уравнение модели линейной регрессии, мы можем узнать, какой тип связи существует между переменными в модели. Если коэффициент регрессии независимой переменной положителен, зависимая переменная будет увеличиваться при ее увеличении. тогда как, если коэффициент регрессии независимой переменной отрицательный, зависимая переменная будет уменьшаться при ее увеличении.
С другой стороны, уравнение, рассчитанное с помощью линейной регрессии, также позволяет делать прогнозы значений. Таким образом, вводя значения объясняющих переменных в уравнение модели, мы можем рассчитать значение зависимой переменной для нового фрагмента данных.