Wprowadzenie do wielokrotnej regresji liniowej
Kiedy chcemy zrozumieć związek pomiędzy pojedynczą zmienną predykcyjną a zmienną odpowiedzi, często używamy prostej regresji liniowej .
Jeśli jednak chcemy zrozumieć związek między wieloma zmiennymi predykcyjnymi a zmienną odpowiedzi, możemy zastosować wielokrotną regresję liniową .
Jeśli mamy p zmiennych predykcyjnych, wówczas model regresji liniowej ma postać:
Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p
Złoto:
- Y : Zmienna odpowiedzi
- X j : j- ta zmienna predykcyjna
- β j : Średni wpływ na Y jednojednostkowego wzrostu X j , przy założeniu, że wszystkie inne predyktory są stałe
- ε : Termin błędu
Wartości β 0 , β 1 , B 2 , …, β p dobieramy metodą najmniejszych kwadratów , która minimalizuje sumę kwadratów reszt (RSS):
RSS = Σ(y i – ŷ i ) 2
Złoto:
- Σ : Grecki symbol oznaczający sumę
- y i : rzeczywista wartość odpowiedzi dla i-tej obserwacji
- ŷ i : Przewidywana wartość odpowiedzi na podstawie modelu wielokrotnej regresji liniowej
Metoda zastosowana do znalezienia oszacowań współczynników jest powiązana z algebrą macierzy. Nie będziemy tu wchodzić w szczegóły. Na szczęście dowolne oprogramowanie statystyczne może obliczyć te współczynniki.
Jak interpretować wyniki wielokrotnej regresji liniowej
Załóżmy, że dopasowujemy model regresji liniowej wielokrotnej, korzystając ze zmiennych predykcyjnych , przestudiowanych godzin i zdanych egzaminów przygotowawczych , a także zmiennej odpowiedzi wyniku egzaminu .
Poniższy zrzut ekranu pokazuje, jak może wyglądać wynik wielokrotnej regresji liniowej dla tego modelu:
Uwaga: Poniższy zrzut ekranu przedstawia wynik wielokrotnej regresji liniowej dla programu Excel , ale liczby pokazane w wynikach są typowe dla wyników regresji, które zobaczysz za pomocą dowolnego oprogramowania statystycznego.
Na podstawie wyników modelu współczynniki pozwalają nam utworzyć szacunkowy model wielokrotnej regresji liniowej:
Wynik egzaminu = 67,67 + 5,56*(godziny) – 0,60*(egzamin przygotowawczy)
Sposób interpretacji współczynników jest następujący:
- Każdy dodatkowy wzrost liczby przepracowanych godzin o jedną jednostkę wiąże się ze średnim wzrostem wyniku egzaminu o 5,56 punktu, przy założeniu niezmienionego poziomu egzaminów praktycznych.
- Każdy dodatkowy wzrost o jedną jednostkę w zdanych egzaminach przygotowawczych wiąże się ze średnim spadkiem punktacji z egzaminu o 0,60 punktu, przy założeniu stałej liczby godzin nauki.
Możemy również użyć tego modelu do określenia oczekiwanej oceny z egzaminu, jaką otrzyma uczeń na podstawie całkowitej liczby godzin przestudiowanych i zdanych egzaminów przygotowawczych. Przykładowo student studiujący 4 godziny i przystępujący do 1 egzaminu przygotowawczego powinien uzyskać z egzaminu ocenę 89,31 :
Wynik egzaminu = 67,67 + 5,56*(4) -0,60*(1) = 89,31
Oto jak zinterpretować pozostałe wyniki modelu:
- R-kwadrat: Nazywa się to współczynnikiem determinacji. Jest to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennych objaśniających. W tym przykładzie 73,4% różnic w wynikach egzaminów można wytłumaczyć liczbą godzin nauki i liczbą zdanych egzaminów przygotowawczych.
- Błąd standardowy: Jest to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. W tym przykładzie zaobserwowane wartości odbiegają średnio o 5366 jednostek od linii regresji.
- F: Jest to ogólna statystyka F dla modelu regresji, obliczona jako MS regresji/MS rezydualne.
- F Znaczenie: Jest to wartość p powiązana z ogólną statystyką F. To mówi nam, czy model regresji jako całość jest statystycznie istotny, czy nie. Innymi słowy, mówi nam, czy dwie zmienne objaśniające łącznie mają statystycznie istotny związek ze zmienną odpowiedzi. W tym przypadku wartość p jest mniejsza niż 0,05, co wskazuje, że zmienne objaśniające, przepracowane godziny i zdane egzaminy przygotowawcze łącznie mają statystycznie istotny związek z wynikiem egzaminu.
- Wartości P współczynnika. Poszczególne wartości p mówią nam, czy każda zmienna objaśniająca jest istotna statystycznie, czy nie. Widzimy, że przepracowane godziny są istotne statystycznie (p = 0,00), natomiast zdane egzaminy przygotowawcze (p = 0,52) nie są istotne statystycznie przy α = 0,05. Ponieważ dotychczasowe egzaminy przygotowawcze nie są istotne statystycznie, może się okazać, że zdecydujemy się na ich usunięcie z modelu.
Jak ocenić dopasowanie modelu regresji liniowej wielokrotnej
Do oceny, jak dobrze model regresji liniowej „pasuje” do zbioru danych, powszechnie używa się dwóch liczb:
1. R-kwadrat: Jest to proporcja wariancji zmiennej odpowiedzi , którą można wyjaśnić za pomocą zmiennych predykcyjnych.
Wartość R-kwadrat może mieścić się w zakresie od 0 do 1. Wartość 0 oznacza, że zmiennej odpowiedzi nie można w ogóle wyjaśnić za pomocą zmiennej predykcyjnej. Wartość 1 wskazuje, że zmienna odpowiedzi może być doskonale i bezbłędnie wyjaśniona przez zmienną predykcyjną.
Im wyższy kwadrat R modelu, tym lepiej model jest w stanie dopasować dane.
2. Błąd standardowy: Jest to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. Im mniejszy błąd standardowy, tym lepiej model jest w stanie dopasować dane.
Jeśli chcemy dokonać prognoz za pomocą modelu regresji, błąd standardowy regresji może być bardziej przydatną metryką niż R-kwadrat, ponieważ daje nam wyobrażenie o tym, jak dokładne są nasze przewidywania w kategoriach jednostek.
Pełne wyjaśnienie zalet i wad stosowania błędu R-kwadrat w porównaniu ze standardowym błędem do oceny dopasowania modelu można znaleźć w następujących artykułach:
Założenia dotyczące wielokrotnej regresji liniowej
Wielokrotna regresja liniowa przyjmuje cztery kluczowe założenia dotyczące danych:
1. Zależność liniowa: Istnieje liniowa zależność pomiędzy zmienną niezależną x i zmienną zależną y.
2. Niezależność: Reszty są niezależne. W szczególności nie ma korelacji pomiędzy kolejnymi resztami w danych szeregów czasowych.
3. Homoscedastyczność: reszty mają stałą wariancję na każdym poziomie x.
4. Normalność: Reszty modelu mają rozkład normalny.
Pełne wyjaśnienie, jak testować te hipotezy, można znaleźć w tym artykule .
Wielokrotna regresja liniowa z wykorzystaniem oprogramowania
Poniższe samouczki zawierają przykłady krok po kroku wykonywania wielokrotnej regresji liniowej przy użyciu różnych programów statystycznych:
Jak wykonać wielokrotną regresję liniową w R
Jak wykonać wielokrotną regresję liniową w Pythonie
Jak wykonać wielokrotną regresję liniową w programie Excel
Jak wykonać wielokrotną regresję liniową w SPSS
Jak wykonać wielokrotną regresję liniową w Stata
Jak wykonać regresję liniową w Arkuszach Google