Zrozumienie błędu standardowego regresji
Kiedy dopasowujemy model regresji do zbioru danych, często interesuje nas, jak dobrze model regresji „pasuje” do zbioru danych. Dwie powszechnie stosowane metryki do pomiaru dobroci dopasowania obejmują R kwadrat ( R2 ) i standardowy błąd regresji , często oznaczany jako S.
W tym samouczku wyjaśniono, jak interpretować błąd standardowy regresji (S) oraz dlaczego może on dostarczyć bardziej przydatnych informacji niż R 2 .
Błąd standardowy w funkcji R-kwadrat w regresji
Załóżmy, że mamy prosty zbiór danych, który pokazuje, ile godzin dziennie uczyło się 12 uczniów w miesiącu poprzedzającym ważny egzamin, a także ich wynik z egzaminu:
Jeśli dopasujemy prosty model regresji liniowej do tego zbioru danych w Excelu, otrzymamy następujący wynik:
R kwadrat to proporcja wariancji zmiennej odpowiedzi, którą można wyjaśnić za pomocą zmiennej predykcyjnej. W tym przypadku 65,76% rozbieżności w wynikach egzaminów można wytłumaczyć liczbą godzin spędzonych na nauce.
Błąd standardowy regresji to średnia odległość pomiędzy obserwowanymi wartościami a linią regresji. W tym przypadku zaobserwowane wartości odbiegają średnio o 4,89 jednostki od linii regresji.
Jeśli wykreślimy rzeczywiste punkty danych za pomocą linii regresji, zobaczymy to wyraźniej:
Należy zauważyć, że niektóre obserwacje leżą bardzo blisko linii regresji, podczas gdy inne nie. Ale średnio zaobserwowane wartości odbiegają od linii regresji o 4,19 jednostki .
Błąd standardowy regresji jest szczególnie przydatny, ponieważ można go wykorzystać do oceny dokładności przewidywań. Około 95% obserwacji powinno mieścić się w granicach +/- dwóch błędów standardowych regresji, co stanowi szybkie przybliżenie 95% przedziału predykcji.
Jeśli chcemy dokonać przewidywań za pomocą modelu regresji, błąd standardowy regresji może być bardziej przydatną miarą niż R-kwadrat, ponieważ daje nam wyobrażenie o tym, jak dokładne są nasze przewidywania w kategoriach jednostek.
Aby zilustrować, dlaczego błąd standardowy regresji może być bardziej użyteczną miarą oceny „dopasowania” modelu, rozważmy inny przykładowy zbiór danych, który pokazuje, ile godzin dziennie uczyło się 12 uczniów w miesiącu poprzedzającym ważny egzamin, a także wynik ich egzaminu:
Należy zauważyć, że jest to dokładnie ten sam zestaw danych, co poprzednio, z tą różnicą, że wszystkie wartości s są zmniejszone o połowę . Zatem uczniowie z tego zbioru danych uczyli się dokładnie o połowę mniej czasu niż uczniowie z poprzedniego zbioru danych i otrzymali dokładnie połowę ocen z egzaminu.
Jeśli dopasujemy prosty model regresji liniowej do tego zbioru danych w Excelu, otrzymamy następujący wynik:
Należy zauważyć, że R kwadrat wynoszący 65,76% jest dokładnie takie samo jak w poprzednim przykładzie.
Jednakże błąd standardowy regresji wynosi 2,095 , co stanowi dokładnie połowę błędu standardowego regresji z poprzedniego przykładu.
Jeśli wykreślimy rzeczywiste punkty danych za pomocą linii regresji, zobaczymy to wyraźniej:
Zwróć uwagę, że obserwacje są skupione znacznie bliżej linii regresji. Średnio obserwowane wartości znajdują się 2095 jednostek od linii regresji.
Zatem chociaż w obu modelach regresji współczynnik R-kwadrat wynosi 65,76% , wiemy, że drugi model zapewniłby dokładniejsze przewidywania, ponieważ ma niższy błąd standardowy regresji.
Korzyści ze stosowania błędu standardowego
Znajomość błędu standardowego regresji (S) jest często bardziej przydatna niż kwadrat R modelu, ponieważ podaje nam rzeczywiste jednostki. Jeśli chcemy użyć modelu regresji do wygenerowania prognoz, S może bardzo łatwo powiedzieć nam, czy model jest wystarczająco dokładny, aby można go było wykorzystać do celów prognozowania.
Załóżmy na przykład, że chcemy uzyskać 95% przedział przewidywań, w którym możemy przewidzieć wyniki egzaminu z dokładnością do 6 punktów od rzeczywistego wyniku.
Nasz pierwszy model ma R-kwadrat wynoszący 65,76%, ale nie mówi nam to nic o dokładności naszego przedziału przewidywań. Na szczęście wiemy też, że pierwszy model ma S wynoszące 4,19. Oznacza to, że 95% przedział przewidywania miałby szerokość w przybliżeniu 2*4,19 = +/- 8,38 jednostki, co jest zbyt szerokie dla naszego przedziału przewidywania.
Nasz drugi model również ma R-kwadrat wynoszący 65,76%, ale znowu nie mówi nam to nic o dokładności naszego przedziału przewidywań. Wiemy jednak, że drugi model ma S wynoszące 2,095. Oznacza to, że 95% przedział predykcji miałby w przybliżeniu szerokość 2*2,095 = +/- 4,19 jednostki, czyli mniej niż 6, a zatem był wystarczająco dokładny, aby można go było wykorzystać do wygenerowania przedziałów predykcji.
Dalsza lektura
Wprowadzenie do prostej regresji liniowej
Jaka jest dobra wartość R-kwadrat?