Регрессивный анализ

В этой статье объясняется, что такое регрессионный анализ и для чего он используется в статистике. Кроме того, вы сможете увидеть, каковы различные типы регрессионного анализа.

Что такое регрессионный анализ?

В статистике регрессионный анализ — это процесс, в котором изучаются взаимосвязи между двумя или более переменными. Более конкретно, регрессионный анализ включает в себя расчет уравнения, которое математически связывает переменные в исследовании.

Модель, построенная с помощью регрессионного анализа, называется регрессионной моделью, а уравнение, связывающее изучаемые переменные, называется уравнением регрессии.

Например, если вы хотите изучить взаимосвязь между инфляцией в стране и ее ВВП, вы можете выполнить регрессионный анализ, чтобы проанализировать взаимосвязь между двумя переменными. В этом случае уравнение, полученное в результате регрессионного анализа, будет линией регрессии.

регрессивный анализ

Таким образом, регрессионный анализ состоит из сбора выборки данных, и на основе собранных данных рассчитывается уравнение, которое позволяет математически связать изучаемые переменные.

При регрессионном анализе важно различать два типа переменных, которые можно включить в регрессионную модель:

  • Зависимая переменная (или переменная отклика) : это фактор, который мы хотим проанализировать, поэтому будет построена регрессионная модель, чтобы увидеть, как значение этой переменной меняется в зависимости от значения других переменных.
  • Независимая переменная (или объясняющая переменная) : это фактор, который, по нашему мнению, может повлиять на переменную, которую мы хотим проанализировать. То есть значение независимой переменной влияет на значение зависимой переменной.

Виды регрессионного анализа

По сути, существует три типа регрессионного анализа :

  • Простой анализ линейной регрессии : модель регрессии имеет независимую переменную и зависимую переменную, и они линейно связаны.
  • Множественный линейный регрессионный анализ : две или более независимых переменных линейно связаны с зависимой переменной.
  • Нелинейный регрессионный анализ : взаимосвязь между независимой переменной и зависимой переменной моделируется с использованием нелинейной функции.

Простой линейный регрессионный анализ

Простая линейная регрессия используется для связи независимой переменной с обеими переменными с помощью линейного уравнения.

Уравнение простой модели линейной регрессии представляет собой прямую линию, поэтому оно состоит из двух коэффициентов: константы уравнения (β 0 ) и коэффициента корреляции между двумя переменными (β 1 ). Следовательно, уравнение простой модели линейной регрессии имеет вид y=β 01 x.

y=\beta_0+\beta_1x

Формулы расчета коэффициентов простой линейной регрессии следующие:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Золото:

  • \beta_0

    – константа линии регрессии.

  • \beta_1

    – наклон линии регрессии.

  • x_i

    — значение независимой переменной X данных i.

  • y_i

    — значение зависимой переменной Y данных i.

  • \overline{x}

    представляет собой среднее значение независимой переменной

  • \overline{y}

    представляет собой среднее значение зависимой переменной Y.

Множественный линейный регрессионный анализ

В модель множественной линейной регрессии включены как минимум две независимые переменные. Другими словами, множественная линейная регрессия позволяет линейно связать несколько объясняющих переменных с переменной отклика. Следовательно, уравнение модели множественной линейной регрессии имеет вид:

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Золото:

  • y

    является зависимой переменной.

  • x_i

    – независимая переменная i.

  • \beta_0

    — константа уравнения множественной линейной регрессии.

  • \beta_i

    коэффициент регрессии, связанный с переменной

    x_i

    .

  • \bm{\varepsilon}

    — это ошибка или остаток, то есть разница между наблюдаемым значением и значением, оцененным моделью.

  • m

    — общее количество переменных в модели.

Итак, если у нас есть образец с общим количеством

n

наблюдения, мы можем представить модель множественной линейной регрессии в матричной форме:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

Приведенное выше матричное выражение можно переписать, присвоив каждой матрице букву:

Y=X\beta+\varepsilon

Таким образом, применяя критерий наименьших квадратов, мы можем прийти к формуле для оценки коэффициентов модели множественной линейной регрессии :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Однако применение этой формулы очень трудоемко и требует много времени, поэтому на практике рекомендуется использовать компьютерное программное обеспечение (например, Minitab или Excel), позволяющее гораздо быстрее создать модель множественной регрессии.

Нелинейный регрессионный анализ

В статистике нелинейная регрессия — это тип регрессии, в котором нелинейная функция используется в качестве модели уравнения регрессии. Следовательно, уравнение модели нелинейной регрессии является нелинейной функцией.

Логично, что нелинейная регрессия используется для связи независимой переменной с зависимой переменной, когда связь между двумя переменными не является линейной. Итак, если при построении графика выборочных данных мы наблюдаем, что они не имеют линейной зависимости, то есть приблизительно не образуют прямую линию, лучше «использовать модель нелинейной регрессии».

Например, уравнение y=3-5x-8x 2 +x 3 является моделью нелинейной регрессии, поскольку оно математически связывает независимую переменную X с зависимой переменной Y через кубическую функцию.

В основном существует три типа нелинейной регрессии :

  • Полиномиальная регрессия – нелинейная регрессия, уравнение которой имеет форму полинома.
  • y=\beta_0+\beta_1 x+\beta_2 x^2+\beta_3 x^3+\dots+\beta_m x^m

  • Логарифмическая регрессия – нелинейная регрессия, в которой независимая переменная логарифмируется.
  • y=\beta_0+\beta_1\cdot \ln(x)

  • Экспоненциальная регрессия – нелинейная регрессия, в которой независимая переменная находится в показателе степени уравнения.
  • y=\beta_0\cdot e^{\beta_1\cdot x}

Для чего используется регрессионный анализ?

Регрессионный анализ в основном имеет два применения: регрессионный анализ используется для объяснения взаимосвязи между объясняющими переменными и переменной ответа, и аналогичным образом регрессионный анализ используется для прогнозирования значения зависимой переменной для нового наблюдения.

Получив уравнение регрессионной модели, мы можем узнать, какой тип связи существует между переменными в модели. Если коэффициент регрессии независимой переменной положителен, зависимая переменная будет увеличиваться при ее увеличении. тогда как, если коэффициент регрессии независимой переменной отрицательный, зависимая переменная будет уменьшаться при ее увеличении.

С другой стороны, математическое уравнение, полученное в результате регрессионного анализа, также позволяет нам делать прогнозы стоимости. Таким образом, вводя значения объясняющих переменных в уравнение регрессионной модели, мы можем рассчитать значение зависимой переменной для нового фрагмента данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *