Zrozumienie błędu standardowego regresji

Przez Benjamin Anderson 29 lipca, 2023 Przewodnik 0 komentarzy

Kiedy dopasowujemy model regresji do zbioru danych, często interesuje nas, jak dobrze model regresji „pasuje” do zbioru danych. Dwie powszechnie stosowane metryki do pomiaru dobroci dopasowania obejmują R kwadrat ( ^R2 ) i standardowy błąd regresji , często oznaczany jako S.

W tym samouczku wyjaśniono, jak interpretować błąd standardowy regresji (S) oraz dlaczego może on dostarczyć bardziej przydatnych informacji niż R ² .

Błąd standardowy w funkcji R-kwadrat w regresji

Załóżmy, że mamy prosty zbiór danych, który pokazuje, ile godzin dziennie uczyło się 12 uczniów w miesiącu poprzedzającym ważny egzamin, a także ich wynik z egzaminu:

Jeśli dopasujemy prosty model regresji liniowej do tego zbioru danych w Excelu, otrzymamy następujący wynik:

R kwadrat to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennej predykcyjnej. W tym przypadku 65,76% rozbieżności w wynikach egzaminów można wytłumaczyć liczbą godzin spędzonych na nauce.

Błąd standardowy regresji to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. W tym przypadku zaobserwowane wartości odbiegają średnio o 4,89 jednostki od linii regresji.

Jeśli wykreślimy rzeczywiste punkty danych za pomocą linii regresji, zobaczymy to wyraźniej:

Należy zauważyć, że niektóre obserwacje leżą bardzo blisko linii regresji, podczas gdy inne nie. Ale średnio zaobserwowane wartości odbiegają od linii regresji o 4,19 jednostki .

Błąd standardowy regresji jest szczególnie przydatny, ponieważ można go wykorzystać do oceny dokładności przewidywań. Około 95% obserwacji powinno mieścić się w granicach +/- dwóch błędów standardowych regresji, co stanowi szybkie przybliżenie 95% przedziału predykcji.

Jeśli chcemy dokonać przewidywań za pomocą modelu regresji, błąd standardowy regresji może być bardziej przydatną miarą niż R-kwadrat, ponieważ daje nam wyobrażenie o tym, jak dokładne są nasze przewidywania w kategoriach jednostek.

Aby zilustrować, dlaczego błąd standardowy regresji może być bardziej użyteczną miarą oceny „dopasowania” modelu, rozważmy inny przykładowy zbiór danych, który pokazuje, ile godzin dziennie uczyło się 12 uczniów w miesiącu poprzedzającym ważny egzamin, a także wynik ich egzaminu:

Należy zauważyć, że jest to dokładnie ten sam zestaw danych, co poprzednio, z tą różnicą, że wszystkie wartości s są zmniejszone o połowę . Zatem uczniowie z tego zbioru danych uczyli się dokładnie o połowę mniej czasu niż uczniowie z poprzedniego zbioru danych i otrzymali dokładnie połowę ocen z egzaminu.

Jeśli dopasujemy prosty model regresji liniowej do tego zbioru danych w Excelu, otrzymamy następujący wynik:

Należy zauważyć, że R kwadrat wynoszący 65,76% jest dokładnie takie samo jak w poprzednim przykładzie.

Jednakże błąd standardowy regresji wynosi 2,095 , co stanowi dokładnie połowę błędu standardowego regresji z poprzedniego przykładu.

Jeśli wykreślimy rzeczywiste punkty danych za pomocą linii regresji, zobaczymy to wyraźniej:

Zwróć uwagę, że obserwacje są skupione znacznie bliżej linii regresji. Średnio obserwowane wartości znajdują się 2095 jednostek od linii regresji.

Zatem chociaż w obu modelach regresji współczynnik R-kwadrat wynosi 65,76% , wiemy, że drugi model zapewniłby dokładniejsze przewidywania, ponieważ ma niższy błąd standardowy regresji.

Korzyści ze stosowania błędu standardowego

Znajomość błędu standardowego regresji (S) jest często bardziej przydatna niż kwadrat R modelu, ponieważ podaje nam rzeczywiste jednostki. Jeśli chcemy użyć modelu regresji do wygenerowania prognoz, S może bardzo łatwo powiedzieć nam, czy model jest wystarczająco dokładny, aby można go było wykorzystać do celów prognozowania.

Załóżmy na przykład, że chcemy uzyskać 95% przedział przewidywań, w którym możemy przewidzieć wyniki egzaminu z dokładnością do 6 punktów od rzeczywistego wyniku.

Nasz pierwszy model ma R-kwadrat wynoszący 65,76%, ale nie mówi nam to nic o dokładności naszego przedziału przewidywań. Na szczęście wiemy też, że pierwszy model ma S wynoszące 4,19. Oznacza to, że 95% przedział przewidywania miałby szerokość w przybliżeniu 2*4,19 = +/- 8,38 jednostki, co jest zbyt szerokie dla naszego przedziału przewidywania.

Nasz drugi model również ma R-kwadrat wynoszący 65,76%, ale znowu nie mówi nam to nic o dokładności naszego przedziału przewidywań. Wiemy jednak, że drugi model ma S wynoszące 2,095. Oznacza to, że 95% przedział predykcji miałby w przybliżeniu szerokość 2*2,095 = +/- 4,19 jednostki, czyli mniej niż 6, a zatem był wystarczająco dokładny, aby można go było wykorzystać do wygenerowania przedziałów predykcji.

Dalsza lektura

Wprowadzenie do prostej regresji liniowej
Jaka jest dobra wartość R-kwadrat?

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej

Błąd standardowy w funkcji R-kwadrat w regresji

Korzyści ze stosowania błędu standardowego

o autorze

Dr Benjamin Anderson

Dodaj komentarz