Jak interpretować resztkowy błąd standardowy


Resztkowy błąd standardowy służy do pomiaru dopasowania modelu regresji do zbioru danych.

W uproszczeniu mierzy odchylenie standardowe reszt w modelu regresji.

Oblicza się go w następujący sposób:

Resztkowy błąd standardowy = √ Σ(y – ŷ) 2 /df

Złoto:

  • y: Obserwowana wartość
  • ŷ: Przewidywana wartość
  • df: Stopnie swobody obliczone jako całkowita liczba obserwacji – całkowita liczba parametrów modelu.

Im mniejszy resztkowy błąd standardowy, tym lepiej model regresji pasuje do zbioru danych. I odwrotnie, im wyższy resztkowy błąd standardowy, tym gorzej model regresji pasuje do zbioru danych.

Model regresji, który ma mały resztkowy błąd standardowy, będzie miał punkty danych ściśle skupione wokół dopasowanej linii regresji:

Reszty tego modelu (różnica między wartościami obserwowanymi a wartościami przewidywanymi) będą małe, co oznacza, że resztkowy błąd standardowy również będzie niewielki.

I odwrotnie, model regresji, który ma duży resztkowy błąd standardowy, będzie miał punkty danych bardziej luźno rozproszone wokół dopasowanej linii regresji:

Reszty z tego modelu będą większe, co oznacza, że resztowy błąd standardowy również będzie większy.

Poniższy przykład pokazuje, jak obliczyć i zinterpretować resztkowy błąd standardowy modelu regresji w R.

Przykład: Interpretacja resztkowego błędu standardowego

Załóżmy, że chcemy dopasować następujący model regresji liniowej:

mpg = β 0 + β 1 (wyporność) + β 2 (moc)

Model ten wykorzystuje zmienne predykcyjne „pojemność” i „moc”, aby przewidzieć liczbę mil na galon przejechany przez dany samochód.

Poniższy kod pokazuje, jak dopasować ten model regresji w R:

 #load built-in mtcars dataset
data(mtcars)

#fit regression model
model <- lm(mpg~disp+hp, data=mtcars)

#view model summary
summary(model)

Call:
lm(formula = mpg ~ disp + hp, data = mtcars)

Residuals:
    Min 1Q Median 3Q Max 
-4.7945 -2.3036 -0.8246 1.8582 6.9363 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 30.735904 1.331566 23.083 < 2nd-16 ***
available -0.030346 0.007405 -4.098 0.000306 ***
hp -0.024840 0.013385 -1.856 0.073679 .  
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.127 on 29 degrees of freedom
Multiple R-squared: 0.7482, Adjusted R-squared: 0.7309 
F-statistic: 43.09 on 2 and 29 DF, p-value: 2.062e-09

W dolnej części wyniku widzimy, że resztkowy błąd standardowy tego modelu wynosi 3,127 .

To mówi nam, że model regresji przewiduje mpg samochodu ze średnim błędem około 3127.

Stosowanie resztkowego błędu standardowego do porównywania modeli

Resztkowy błąd standardowy jest szczególnie przydatny do porównywania dopasowania różnych modeli regresji.

Załóżmy na przykład, że dopasowujemy dwa różne modele regresji, aby przewidzieć zużycie paliwa w samochodzie. Resztkowy błąd standardowy każdego modelu jest następujący:

  • Błąd standardowy szczątkowy modelu 1: 3,127
  • Resztkowy błąd standardowy modelu 2: 5,657

Ponieważ Model 1 ma niższy błąd standardowy rezydualny, lepiej pasuje do danych niż Model 2. Dlatego wolelibyśmy używać Modelu 1 do przewidywania mpg samochodu, ponieważ przewidywania, które tworzy, są bliższe obserwowanym wartościom mpg samochodów.

Dodatkowe zasoby

Jak wykonać prostą regresję liniową w R
Jak wykonać wielokrotną regresję liniową w R
Jak utworzyć wykres rezydualny w R

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *