Delikatny przewodnik po sumie kwadratów: sst, ssr, sse


Regresja liniowa służy do znalezienia linii, która najlepiej „pasuje” do zbioru danych.

Często używamy trzech różnych sum wartości kwadratów, aby zmierzyć, jak dobrze linia regresji faktycznie pasuje do danych:

1. Suma kwadratów całkowitych (SST) – Suma kwadratów różnic pomiędzy poszczególnymi punktami danych (y i ) a średnią zmiennej odpowiedzi ( y ).

  • SST = Σ(y iy ) 2

2. Regresja sumy kwadratów (SSR) – Suma kwadratów różnic pomiędzy przewidywanymi punktami danych (ŷ i ) a średnią zmiennej odpowiedzi ( y ).

  • SSR = Σ(ŷ iy ) 2

3. Błąd sumy kwadratów (SSE) – Suma kwadratów różnic pomiędzy przewidywanymi punktami danych (ŷ i ) i obserwowanymi punktami danych (y i ).

  • SSE = Σ(ŷ i – y i ) 2

Pomiędzy tymi trzema miarami istnieje następująca zależność:

SST = SSR + SSE

Jeśli więc znamy dwa z tych pomiarów, możemy użyć prostej algebry do obliczenia trzeciego.

SSR, SST i kwadrat R

R-kwadrat , czasami nazywany współczynnikiem determinacji, jest miarą tego, jak dobrze model regresji liniowej pasuje do zbioru danych. Reprezentuje proporcję wariancjizmiennej odpowiedzi , którą można wyjaśnić za pomocą zmiennej predykcyjnej.

Wartość R-kwadrat może mieścić się w przedziale od 0 do 1. Wartość 0 oznacza, że zmiennej odpowiedzi nie można w ogóle wyjaśnić za pomocą zmiennej predykcyjnej. Wartość 1 wskazuje, że zmienna odpowiedzi może być doskonale i bezbłędnie wyjaśniona przez zmienną predykcyjną.

Używając SSR i SST, możemy obliczyć R do kwadratu w następujący sposób:

R do kwadratu = SSR / SST

Na przykład, jeśli SSR dla danego modelu regresji wynosi 137,5, a SST wynosi 156, obliczymy R do kwadratu w następujący sposób:

R do kwadratu = 137,5 / 156 = 0,8814

To mówi nam, że 88,14% zmienności zmiennej odpowiedzi można wyjaśnić zmienną predykcyjną.

Oblicz SST, SSR, SSE: przykład krok po kroku

Załóżmy, że mamy następujący zbiór danych, który pokazuje liczbę godzin przestudiowanych przez sześciu różnych uczniów wraz z wynikami ich egzaminów końcowych:

Korzystając z oprogramowania statystycznego (takiego jak R , Excel , Python ) lub nawet ręcznie, możemy zobaczyć, że najlepiej dopasowana linia to:

Wynik = 66,615 + 5,0769*(Godziny)

Kiedy już znamy linię równania najlepszego dopasowania, możemy wykonać następujące kroki, aby obliczyć SST, SSR i SSE:

Krok 1: Oblicz średnią zmiennej odpowiedzi.

Okazuje się, że średnia zmiennej odpowiedzi ( y ) wynosi 81 .

Krok 2: Oblicz przewidywaną wartość dla każdej obserwacji.

Następnie możemy użyć linii równania najlepszego dopasowania, aby obliczyć przewidywany wynik egzaminu () dla każdego ucznia.

Na przykład przewidywana ocena z egzaminu dla ucznia, który uczył się jedną godzinę, to:

Wynik = 66,615 + 5,0769*(1) = 71,69 .

Możemy zastosować to samo podejście, aby znaleźć przewidywany wynik dla każdego ucznia:

Krok 3: Oblicz całkowitą sumę kwadratów (SST).

Następnie możemy obliczyć całkowitą sumę kwadratów.

Na przykład całkowita suma kwadratów pierwszego ucznia wynosi:

(y jay ) 2 = (68 – 81) 2 = 169 .

Możemy zastosować to samo podejście, aby znaleźć całkowitą sumę kwadratów dla każdego ucznia:

Całkowita suma kwadratów wynosi 316 .

Krok 4: Oblicz sumę kwadratów regresji (SSR).

Następnie możemy obliczyć sumę kwadratów regresji.

Na przykład suma kwadratów regresji dla pierwszego ucznia wynosi:

( ŷiy ) 2 = (71,69 – 81) 2 = 86,64 .

Możemy zastosować to samo podejście, aby znaleźć regresję sumy kwadratów dla każdego ucznia:

Suma kwadratów regresji wynosi 279,23 .

Krok 5: Oblicz sumę błędów kwadratów (SSE).

Następnie możemy obliczyć błąd sumy kwadratów.

Na przykład suma kwadratów błędu pierwszego ucznia wynosi:

ja – y ja ) 2 = (71,69 – 68) 2 = 13,63 .

Możemy zastosować to samo podejście, aby znaleźć sumę kwadratów błędu dla każdego ucznia:

Przykład obliczenia SST, SSR i SSE dla regresji liniowej

Możemy sprawdzić, że SST = SSR + SSE

  • SST = SSR + SSE
  • 316 = 279,23 + 36,77

Możemy również obliczyć R kwadrat modelu regresji, korzystając z następującego równania:

  • R do kwadratu = SSR / SST
  • R do kwadratu = 279,23/316
  • R do kwadratu = 0,8836

To mówi nam, że 88,36% różnic w wynikach egzaminów można wyjaśnić liczbą godzin nauki.

Dodatkowe zasoby

Możesz użyć następujących kalkulatorów, aby automatycznie obliczyć SST, SSR i SSE dla dowolnej prostej linii regresji liniowej:

Kalkulator SST
Kalkulator RSS
Kalkulator ESS

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *