Wielokrotna regresja liniowa

Przez Benjamin Anderson 2 sierpnia, 2023 Statystyka 0 komentarzy

W tym artykule wyjaśniono, czym jest wielokrotna regresja liniowa w statystyce. Dodatkowo dowiesz się jak stworzyć model regresji liniowej wielokrotnej i jak go interpretować.

Co to jest wielokrotna regresja liniowa?

Wielokrotna regresja liniowa to model regresji, w którym uwzględnione są dwie lub więcej zmiennych niezależnych. Innymi słowy, wielokrotna regresja liniowa jest modelem statystycznym, który umożliwia liniowe powiązanie kilku zmiennych objaśniających ze zmienną odpowiedzi.

Dlatego do znalezienia równania łączącego dwie lub więcej zmiennych niezależnych ze zmienną zależną stosuje się model regresji liniowej wielokrotnej. Zatem zastępując wartość każdej zmiennej niezależnej, uzyskuje się przybliżenie wartości zmiennej zależnej.

Na przykład równanie y=3+6x ₁ -4x ₂ +7x ₃ jest modelem regresji liniowej wielokrotnej, ponieważ matematycznie wiąże trzy niezależne zmienne (x ₁ , x ₂ , x ₃ ) z jedną zmienną zależną (y) liniową ścieżką wartości .

Wzór wielokrotnej regresji liniowej

Równanie modelu regresji liniowej wielokrotnej to y=β ₀ +β ₁ x ₁ +β ₂ x ₂ +…+β _m x _m +ε.

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Złoto:

$y$

jest zmienną zależną.
$x_i$

jest zmienną niezależną i.
$\beta_0$

jest stałą równania regresji liniowej.
$\beta_i$

jest współczynnikiem regresji powiązanym ze zmienną

$x_i$

.
$\bm{\varepsilon}$

Jest to błąd lub reszta, czyli różnica między wartością obserwowaną a wartością oszacowaną przez model.
$m$

jest całkowitą liczbą zmiennych w modelu.

Jeśli więc mamy próbkę o łącznej wartości

$n$

obserwacji możemy zaproponować model wielokrotnej regresji liniowej w postaci macierzowej:

$\begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}=\begin{pmatrix}1&x_{11}&\dots&x_{1m}\\1&x_{21}&\dots&x_{2m}\\ \vdots&\vdots&\ddots&\vdots\\1&x_{n1}&\dots&x_{nm}\end{pmatrix}\cdot\begin{pmatrix}\beta_0\\\beta_1\\\vdots\\\beta_m\end{pmatrix}+\begin{pmatrix}\varepsilon_1\\\varepsilon_2\\\vdots\\\varepsilon_n\end{pmatrix}$

Powyższe wyrażenie tablicowe można przepisać, przypisując literę do każdej tablicy:

$Y=X\beta+\varepsilon$

Zatem stosując kryterium najmniejszych kwadratów można otrzymać wzór na oszacowanie współczynników modelu regresji liniowej wielokrotnej :

$\widehat{\beta}=\left(X^tX\right)^{-1}X^tY$

Stosowanie tego wzoru jest jednak bardzo pracochłonne i czasochłonne, dlatego w praktyce zaleca się stosowanie programów komputerowych (takich jak Minitab czy Excel), które umożliwiają znacznie szybsze uruchomienie modelu regresji wielokrotnej.

Założenia dotyczące wielokrotnej regresji liniowej

W modelu regresji liniowej wielokrotnej muszą zostać spełnione następujące warunki, aby model był ważny:

Niezależność : reszty muszą być od siebie niezależne. Powszechnym sposobem zapewnienia niezależności modelu jest dodanie losowości do procesu próbkowania.
Homoscedastyczność : wariancje reszt muszą być jednorodne, to znaczy zmienność reszt musi być stała.
Niewielokoliniowość : zmienne objaśniające zawarte w modelu nie mogą być ze sobą powiązane lub przynajmniej ich związek musi być bardzo słaby.
Normalność : reszty muszą mieć rozkład normalny, czyli innymi słowy muszą mieć rozkład normalny ze średnią 0.
Liniowość : Zakłada się, że związek między zmienną odpowiedzi a zmiennymi objaśniającymi jest liniowy.

Interpretacja modelu wielokrotnej regresji liniowej

Aby zinterpretować model regresji liniowej wielokrotnej, musimy przyjrzeć się współczynnikowi determinacji (R kwadrat), który wyraża procent wyjaśniony przez model regresji. Zatem im wyższy współczynnik determinacji, tym bardziej model będzie dostosowany do badanej próbki danych.

➤ Zobacz: Współczynnik determinacji (R do kwadratu)

Jednakże dobroć dopasowania modelu statystycznego może wprowadzać w błąd, szczególnie w przypadku modeli regresji liniowej wielokrotnej. Ponieważ dodając zmienną do modelu, współczynnik determinacji wzrasta, nawet jeśli zmienna jest nieistotna. Należy jednak maksymalizować współczynnik determinacji, starając się minimalizować liczbę zmiennych, ponieważ model jest mniej skomplikowany i łatwiejszy w interpretacji.

Aby rozwiązać ten problem, konieczne jest obliczenie skorygowanego współczynnika determinacji (skorygowanego R do kwadratu), który jest współczynnikiem statystycznym mierzącym jakość dopasowania modelu regresji, karzącym za każdą zmienną dodaną do modelu, w przeciwieństwie do współczynnika nieskorygowanego determinacji. nie uwzględnia to liczby zmiennych w modelu.

Zatem skorygowany współczynnik determinacji pozwala porównać stopień dopasowania dwóch modeli o różnej liczbie zmiennych. W zasadzie należy wybrać model, który ma wyższy skorygowany współczynnik determinacji, jednak jeśli oba modele mają bardzo podobne wartości, lepiej wybrać model z mniejszą liczbą zmiennych, ponieważ jest łatwiejszy w interpretacji.

➤ Zobacz: Skorygowany współczynnik determinacji (skorygowany R-kwadrat)

Natomiast współczynniki regresji wskazują związek pomiędzy zmienną objaśniającą a zmienną odpowiedzi. Jeżeli współczynnik regresji jest dodatni, zmienna odpowiedzi będzie rosła wraz ze wzrostem zmiennej objaśniającej. natomiast jeśli współczynnik regresji jest ujemny, zmienna odpowiedzi będzie się zmniejszać wraz ze wzrostem zmiennej objaśniającej.

Logicznie rzecz biorąc, aby poprzedni warunek został spełniony, pozostałe zmienne muszą pozostać stałe. Dlatego ważne jest, aby nie było współliniowości pomiędzy różnymi zmiennymi objaśniającymi modelu. Możesz zobaczyć, jak badana jest wieloliniowość modelu, wyszukując odpowiedni artykuł na naszej stronie internetowej.

Regresja liniowa wielokrotna i prosta

Na koniec zobaczymy, jakie są różnice między prostym modelem regresji liniowej a modelem wielokrotnej regresji liniowej, ponieważ są to dwa modele regresji szeroko stosowane w statystyce.

Prosta regresja liniowa to model regresji używany do powiązania zmiennej niezależnej. Zatem równanie prostego modelu regresji liniowej wygląda następująco:

$y=\beta_0+\beta_1x_1+\varepsilon$

Dlatego różnica między wielokrotną regresją liniową a prostą regresją liniową polega na liczbie zmiennych objaśniających. Model wielokrotnej regresji liniowej ma dwie lub więcej zmiennych objaśniających, podczas gdy prosty model regresji liniowej ma tylko jedną zmienną objaśniającą.

$y=\beta_0+\beta_1 x_1+\beta_2 x_2+\dots+\beta_m x_m+\varepsilon$

Podsumowując, wielokrotna regresja liniowa jest rozszerzeniem prostej regresji liniowej, ponieważ po prostu dodaje się więcej zmiennych objaśniających i odpowiadających im współczynników regresji. Jednak współczynniki regresji są obliczane inaczej, aby zobaczyć, jak to się robi, kliknij tutaj:

➤ Zobacz: Prosta regresja liniowa

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej