Regresja liniowa

Przez Benjamin Anderson 2 sierpnia, 2023 Statystyka 0 komentarzy

W tym artykule wyjaśniono, czym jest regresja liniowa i do czego służy w statystyce. Dodatkowo będziesz mógł zobaczyć, jak obliczane są dwa typy regresji liniowej: prosta regresja liniowa i wielokrotna regresja liniowa.

Co to jest regresja liniowa?

Regresja liniowa to model statystyczny, który wiąże jedną lub więcej zmiennych niezależnych ze zmienną zależną. Mówiąc najprościej, regresja liniowa to technika stosowana do znalezienia równania przybliżającego związek między jedną lub większą liczbą zmiennych objaśniających a zmienną odpowiedzi.

Na przykład równanie y=2+5x ₁ -3x ₂ +8x ₃ jest modelem regresji liniowej, ponieważ matematycznie wiąże trzy zmienne niezależne (x ₁ , x ₂ , x ₃ ) ze zmienną zależną (y) i co więcej, zależność pomiędzy zmiennymi jest liniowa.

Rodzaje regresji liniowej

Istnieją dwa rodzaje regresji liniowej :

Prosta regresja liniowa : pojedyncza zmienna niezależna jest powiązana ze zmienną zależną. Równanie dla tego typu modelu regresji liniowej ma zatem postać y=β ₀ + β ₁ x ₁ .
Wielokrotna regresja liniowa : Model regresji ma kilka zmiennych objaśniających i zmienną odpowiedzi. Zatem równanie tego typu modelu regresji liniowej ma postać y=β ₀ +β ₁ x ₁ +β ₂ x ₂ …+β _m x _m .

prosta regresja liniowa

Do powiązania jednej zmiennej niezależnej z obiema zmiennymi stosuje się prostą regresję liniową .

Równanie prostego modelu regresji liniowej jest linią prostą, dlatego składa się z dwóch współczynników: stałej równania (β ₀ ) i współczynnika korelacji pomiędzy obiema zmiennymi (β ₁ ). Dlatego równanie prostego modelu regresji liniowej ma postać y=β ₀ + β ₁ x.

$y=\beta_0+\beta_1x$

Wzory na obliczenie prostych współczynników regresji liniowej są następujące:

$\begin{array}{c}\beta_1=\cfrac{\displaystyle \sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y})}{\displaystyle \sum_{i=1}^n (x_i-\overline{x})^2}\\[12ex]\beta_0=\overline{y}-\beta_1\overline{x}\end{array}$

Złoto:

$\beta_0$

jest stałą linii regresji.
$\beta_1$

jest nachyleniem linii regresji.
$x_i$

jest wartością zmiennej niezależnej X danych i.
$y_i$

jest wartością zmiennej zależnej Y danych i.
$\overline{x}$

jest średnią wartości zmiennej niezależnej
$\overline{y}$

jest średnią wartości zmiennej zależnej Y.

➤ Zobacz: Konkretny przykład prostej regresji liniowej

Wielokrotna regresja liniowa

W modelu regresji liniowej wielokrotnej uwzględnione są co najmniej dwie zmienne niezależne. Innymi słowy, wielokrotna regresja liniowa umożliwia liniowe powiązanie kilku zmiennych objaśniających ze zmienną odpowiedzi.

Równanie modelu regresji liniowej wielokrotnej to y=β ₀ +β ₁ x ₁ +β ₂ x ₂ +…+β _m x _m +ε.

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Złoto:

$y$

jest zmienną zależną.
$x_i$

jest zmienną niezależną i.
$\beta_0$

jest stałą równania regresji liniowej.
$\beta_i$

jest współczynnikiem regresji powiązanym ze zmienną

$x_i$

.
$\bm{\varepsilon}$

jest błędem lub resztą, to znaczy różnicą między wartością obserwowaną a wartością oszacowaną przez model.
$m$

jest całkowitą liczbą zmiennych w modelu.

Jeśli więc mamy próbkę o łącznej wartości

$n$

obserwacji możemy przedstawić model wielokrotnej regresji liniowej w postaci macierzowej:

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

Powyższe wyrażenie macierzowe można przepisać, przypisując literę do każdej macierzy:

$Y=X\beta+\varepsilon$

Zatem, stosując kryterium najmniejszych kwadratów, możemy otrzymać wzór na oszacowanie współczynników modelu regresji liniowej wielokrotnej :

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

Stosowanie tej formuły jest jednak bardzo pracochłonne i czasochłonne, dlatego w praktyce zaleca się stosowanie programów komputerowych (takich jak Minitab czy Excel), które pozwalają znacznie szybciej stworzyć model regresji wielokrotnej.

➤ Zobacz: Interpretacja modelu wielokrotnej regresji liniowej

Założenia regresji liniowej

W modelu regresji liniowej, aby model był ważny, muszą zostać spełnione następujące warunki:

Niezależność : reszty muszą być od siebie niezależne. Powszechnym sposobem zapewnienia niezależności modelu jest dodanie losowości do procesu próbkowania.
Homoscedastyczność : wariancje reszt muszą być jednorodne, to znaczy zmienność reszt musi być stała.
Niewielokoliniowość : zmienne objaśniające zawarte w modelu nie mogą być ze sobą powiązane lub przynajmniej ich związek musi być bardzo słaby.
Normalność : reszty muszą mieć rozkład normalny, czyli innymi słowy muszą mieć rozkład normalny ze średnią 0.
Liniowość : zakłada się, że związek pomiędzy zmienną odpowiedzi a zmiennymi objaśniającymi ma charakter liniowy.

Do czego służy regresja liniowa?

Regresja liniowa ma zasadniczo dwa zastosowania: regresja liniowa służy do wyjaśnienia związku między zmiennymi objaśniającymi a zmienną odpowiedzi i podobnie regresja liniowa służy do przewidywania wartości zmiennej zależnej dla nowej obserwacji.

Otrzymując równanie modelu regresji liniowej, możemy dowiedzieć się, jaki rodzaj zależności istnieje pomiędzy zmiennymi w modelu. Jeśli współczynnik regresji zmiennej niezależnej jest dodatni, zmienna zależna będzie wzrastać wraz ze wzrostem. natomiast jeśli współczynnik regresji zmiennej niezależnej jest ujemny, zmienna zależna będzie się zmniejszać wraz ze wzrostem.

Z drugiej strony równanie obliczone metodą regresji liniowej pozwala również na przewidywanie wartości. Zatem wprowadzając wartości zmiennych objaśniających do równania modelu, możemy obliczyć wartość zmiennej zależnej dla nowej porcji danych.

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej