Jak interpretować wynik regresji w r


Aby dopasować model regresji liniowej w R, możemy użyć polecenia lm() .

Aby wyświetlić wynik modelu regresji, możemy następnie użyć polecenia podsumowanie() .

W tym samouczku wyjaśniono, jak interpretować każdą wartość wyniku regresji w języku R.

Przykład: interpretacja wyniku regresji w R

Poniższy kod pokazuje, jak dopasować model regresji liniowej do zintegrowanego zbioru danych mtcars , używając hp , drat i wt jako zmiennych predykcyjnych oraz mpg jako zmiennej odpowiedzi:

 #fit regression model using hp, drat, and wt as predictors
model <- lm(mpg ~ hp + drat + wt, data = mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

Oto jak interpretować każdą wartość na wyjściu:

Dzwonić

 Call:
lm(formula = mpg ~ hp + drat + wt, data = mtcars)

Ta sekcja przypomina nam wzór, którego użyliśmy w naszym modelu regresji. Widzimy, że użyliśmy mpg jako zmiennej odpowiedzi oraz hp , drat i wt jako zmiennych predykcyjnych. Każda zmienna pochodziła ze zbioru danych o nazwie mtcars .

Pozostałości

 Residuals:
    Min 1Q Median 3Q Max 
-3.3598 -1.8374 -0.5099 0.9681 5.7078 

W tej sekcji przedstawiono podsumowanie rozkładu reszt z modelu regresji. Przypomnijmy, że reszta to różnica między wartością obserwowaną a wartością przewidywaną modelu regresji.

Minimalna reszta wyniosła -3,3598 , mediana reszty wyniosła -0,5099 , a maksymalna reszta wyniosła 5,7078 .

Współczynniki

 Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 29.394934 6.156303 4.775 5.13e-05 ***
hp -0.032230 0.008925 -3.611 0.001178 ** 
drat 1.615049 1.226983 1.316 0.198755    
wt -3.227954 0.796398 -4.053 0.000364 ***

---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

W tej sekcji wyświetlane są oszacowane współczynniki modelu regresji. Możemy użyć tych współczynników do utworzenia następującego szacunkowego równania regresji:

mpg = 29,39 – 0,03*KM + 1,62*drat – 3,23*waga

Dla każdej zmiennej predykcyjnej otrzymujemy następujące wartości:

Oszacowanie: szacowany współczynnik. Mówi nam to o średnim wzroście zmiennej odpowiedzi powiązanym ze wzrostem o jedną jednostkę zmiennej predykcyjnej, przy założeniu, że wszystkie pozostałe zmienne predykcyjne pozostają stałe.

Standard. Błąd : Jest to błąd standardowy współczynnika. Jest to miara niepewności naszego oszacowania współczynnika.

Wartość t: Jest to statystyka t dla zmiennej predykcyjnej, obliczona jako (oszacowanie) / (błąd standardowy).

Pr(>|t|): Jest to wartość p odpowiadająca statystyce t. Jeżeli wartość ta jest niższa od pewnego poziomu alfa (na przykład 0,05), zmienną predykcyjną uznaje się za istotną statystycznie.

Gdybyśmy zastosowali poziom alfa α = 0,05 do określenia, które predyktory były istotne w tym modelu regresji, powiedzielibyśmy, że hp i wt są statystycznie istotnymi predyktorami, podczas gdy drat nie.

Ocena adekwatności modelu

 Residual standard error: 2.561 on 28 degrees of freedom
Multiple R-squared: 0.8369, Adjusted R-squared: 0.8194 
F-statistic: 47.88 on 3 and 28 DF, p-value: 3.768e-11

W ostatniej sekcji przedstawiono różne liczby, które pomagają nam ocenić, jak dobrze model regresji pasuje do naszego zbioru danych.

Resztkowy błąd standardowy: Mówi nam o średniej odległości między obserwowanymi wartościami a linią regresji. Im mniejsza wartość, tym lepiej model regresji jest w stanie dopasować dane.

Stopnie swobody oblicza się jako nk-1, gdzie n = całkowita liczba obserwacji, a k = liczba predyktorów. W tym przykładzie mtcars ma 32 obserwacje, a w modelu regresji użyliśmy 3 predyktorów, więc stopnie swobody wynoszą 32 – 3 – 1 = 28.

Wielokrotne R-kwadrat: Nazywa się to współczynnikiem determinacji. Mówi nam, jaką część wariancji zmiennej odpowiedzi można wyjaśnić za pomocą zmiennych predykcyjnych.

Wartość ta waha się od 0 do 1. Im bliżej jest ona 1, tym lepiej zmienne predykcyjne są w stanie przewidzieć wartość zmiennej odpowiedzi.

Skorygowane R-kwadrat: Jest to zmodyfikowana wersja R-kwadrat, która została skorygowana na podstawie liczby predyktorów w modelu. Jest to zawsze mniej niż R kwadrat.

Skorygowany współczynnik R-kwadrat może być przydatny do porównywania dopasowania różnych modeli regresji, które wykorzystują różną liczbę zmiennych predykcyjnych.

Statystyka F: wskazuje, czy model regresji zapewnia lepsze dopasowanie do danych niż model, który nie zawiera zmiennych niezależnych. Zasadniczo sprawdza, czy model regresji jako całość jest przydatny.

Wartość p: Jest to wartość p odpowiadająca statystyce F. Jeżeli wartość ta jest poniżej pewnego poziomu istotności (np. 0,05), wówczas model regresji lepiej dopasowuje się do danych niż model bez predyktorów.

Budując modele regresji, mamy nadzieję, że ta wartość p jest poniżej pewnego poziomu istotności, ponieważ wskazuje, że zmienne predykcyjne są faktycznie przydatne w przewidywaniu wartości zmiennej odpowiedzi.

Dodatkowe zasoby

Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jaka jest dobra wartość R-kwadrat?

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *