Regresja liniowa

W tym artykule wyjaśniono, czym jest regresja liniowa i do czego służy w statystyce. Dodatkowo będziesz mógł zobaczyć, jak obliczane są dwa typy regresji liniowej: prosta regresja liniowa i wielokrotna regresja liniowa.

Co to jest regresja liniowa?

Regresja liniowa to model statystyczny, który wiąże jedną lub więcej zmiennych niezależnych ze zmienną zależną. Mówiąc najprościej, regresja liniowa to technika stosowana do znalezienia równania przybliżającego związek między jedną lub większą liczbą zmiennych objaśniających a zmienną odpowiedzi.

Na przykład równanie y=2+5x 1 -3x 2 +8x 3 jest modelem regresji liniowej, ponieważ matematycznie wiąże trzy zmienne niezależne (x 1 , x 2 , x 3 ) ze zmienną zależną (y) i co więcej, zależność pomiędzy zmiennymi jest liniowa.

Rodzaje regresji liniowej

Istnieją dwa rodzaje regresji liniowej :

  • Prosta regresja liniowa : pojedyncza zmienna niezależna jest powiązana ze zmienną zależną. Równanie dla tego typu modelu regresji liniowej ma zatem postać y=β 0 + β 1 x 1 .
  • Wielokrotna regresja liniowa : Model regresji ma kilka zmiennych objaśniających i zmienną odpowiedzi. Zatem równanie tego typu modelu regresji liniowej ma postać y=β 01 x 12 x 2 …+β m x m .

prosta regresja liniowa

Do powiązania jednej zmiennej niezależnej z obiema zmiennymi stosuje się prostą regresję liniową .

Równanie prostego modelu regresji liniowej jest linią prostą, dlatego składa się z dwóch współczynników: stałej równania (β 0 ) i współczynnika korelacji pomiędzy obiema zmiennymi (β 1 ). Dlatego równanie prostego modelu regresji liniowej ma postać y=β 0 + β 1 x.

y=\beta_0+\beta_1x

Wzory na obliczenie prostych współczynników regresji liniowej są następujące:

\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}

Złoto:

  • \beta_0

    jest stałą linii regresji.

  • \beta_1

    jest nachyleniem linii regresji.

  • x_i

    jest wartością zmiennej niezależnej X danych i.

  • y_i

    jest wartością zmiennej zależnej Y danych i.

  • \overline{x}

    jest średnią wartości zmiennej niezależnej

  • \overline{y}

    jest średnią wartości zmiennej zależnej Y.

Wielokrotna regresja liniowa

W modelu regresji liniowej wielokrotnej uwzględnione są co najmniej dwie zmienne niezależne. Innymi słowy, wielokrotna regresja liniowa umożliwia liniowe powiązanie kilku zmiennych objaśniających ze zmienną odpowiedzi.

Równanie modelu regresji liniowej wielokrotnej to y=β 01 x 12 x 2 +…+β m x m +ε.

y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon

Złoto:

  • y

    jest zmienną zależną.

  • x_i

    jest zmienną niezależną i.

  • \beta_0

    jest stałą równania regresji liniowej.

  • \beta_i

    jest współczynnikiem regresji powiązanym ze zmienną

    x_i

    .

  • \bm{\varepsilon}

    jest błędem lub resztą, to znaczy różnicą między wartością obserwowaną a wartością oszacowaną przez model.

  • m

    jest całkowitą liczbą zmiennych w modelu.

Jeśli więc mamy próbkę o łącznej wartości

n

obserwacji możemy przedstawić model wielokrotnej regresji liniowej w postaci macierzowej:

\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}

Powyższe wyrażenie macierzowe można przepisać, przypisując literę do każdej macierzy:

Y=X\beta+\varepsilon

Zatem, stosując kryterium najmniejszych kwadratów, możemy otrzymać wzór na oszacowanie współczynników modelu regresji liniowej wielokrotnej :

\widehat{\beta}=\left(X^tX\right)^{-1}X^tY

Stosowanie tej formuły jest jednak bardzo pracochłonne i czasochłonne, dlatego w praktyce zaleca się stosowanie programów komputerowych (takich jak Minitab czy Excel), które pozwalają znacznie szybciej stworzyć model regresji wielokrotnej.

Założenia regresji liniowej

W modelu regresji liniowej, aby model był ważny, muszą zostać spełnione następujące warunki:

  • Niezależność : reszty muszą być od siebie niezależne. Powszechnym sposobem zapewnienia niezależności modelu jest dodanie losowości do procesu próbkowania.
  • Homoscedastyczność : wariancje reszt muszą być jednorodne, to znaczy zmienność reszt musi być stała.
  • Niewielokoliniowość : zmienne objaśniające zawarte w modelu nie mogą być ze sobą powiązane lub przynajmniej ich związek musi być bardzo słaby.
  • Normalność : reszty muszą mieć rozkład normalny, czyli innymi słowy muszą mieć rozkład normalny ze średnią 0.
  • Liniowość : zakłada się, że związek pomiędzy zmienną odpowiedzi a zmiennymi objaśniającymi ma charakter liniowy.

Do czego służy regresja liniowa?

Regresja liniowa ma zasadniczo dwa zastosowania: regresja liniowa służy do wyjaśnienia związku między zmiennymi objaśniającymi a zmienną odpowiedzi i podobnie regresja liniowa służy do przewidywania wartości zmiennej zależnej dla nowej obserwacji.

Otrzymując równanie modelu regresji liniowej, możemy dowiedzieć się, jaki rodzaj zależności istnieje pomiędzy zmiennymi w modelu. Jeśli współczynnik regresji zmiennej niezależnej jest dodatni, zmienna zależna będzie wzrastać wraz ze wzrostem. natomiast jeśli współczynnik regresji zmiennej niezależnej jest ujemny, zmienna zależna będzie się zmniejszać wraz ze wzrostem.

Z drugiej strony równanie obliczone metodą regresji liniowej pozwala również na przewidywanie wartości. Zatem wprowadzając wartości zmiennych objaśniających do równania modelu, możemy obliczyć wartość zmiennej zależnej dla nowej porcji danych.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *