Jak obliczyć reszty w analizie regresji
Prosta regresja liniowa to metoda statystyczna, którą można zastosować do zrozumienia związku między dwiema zmiennymi, x i y.
Zmienna x jest nazywana zmienną predykcyjną. Druga zmienna, y , nazywana jestzmienną odpowiedzi .
Załóżmy na przykład, że mamy następujący zbiór danych zawierający masę i wzrost siedmiu osób:
Niech waga będzie zmienną predykcyjną, a wzrost niech będzie zmienną odpowiedzi.
Jeśli wykreślimy te dwie zmienne za pomocą wykresu rozrzutu , z wagą na osi x i wzrostem na osi y, będzie to wyglądać tak:
Z wykresu rozrzutu wyraźnie widać, że wraz ze wzrostem masy ciała wzrasta również wzrost, ale aby faktycznie określić ilościowo tę zależność między masą a wzrostem, musimy zastosować regresję liniową.
Korzystając z regresji liniowej, możemy znaleźć linię, która najlepiej „pasuje” do naszych danych:
Wzór na tę linię najlepszego dopasowania jest zapisany:
ŷ = b 0 + b 1 x
gdzie ŷ to przewidywana wartość zmiennej odpowiedzi, b 0 to wyraz wolny, b 1 to współczynnik regresji, a x to wartość zmiennej predykcyjnej.
W tym przykładzie najlepiej dopasowana linia to:
rozmiar = 32,783 + 0,2001*(waga)
Jak obliczyć resztę
Należy pamiętać, że punkty danych na naszym wykresie rozrzutu nie zawsze odpowiadają dokładnie linii najlepszego dopasowania:
Ta różnica między punktem danych a linią nazywana jest resztą . Dla każdego punktu danych możemy obliczyć resztę tego punktu, biorąc różnicę między jego prawdziwą wartością a wartością przewidywaną z linii najlepszego dopasowania.
Przykład 1: Obliczanie reszty
Przypomnijmy sobie na przykład wagę i wzrost siedmiu osób z naszego zbioru danych:
Pierwsza osoba waży 140 funtów. i wysokość 60 cali.
Aby poznać oczekiwany wzrost tej osoby, możemy podłączyć jej wagę do linii równania najlepszego dopasowania:
rozmiar = 32,783 + 0,2001*(waga)
Zatem przewidywana wielkość tego osobnika wynosi:
wzrost = 32,783 + 0,2001*(140)
wysokość = 60,797 cala
Zatem reszta dla tego punktu danych wynosi 60 – 60,797 = -0,797 .
Przykład 2: Obliczanie reszty
Możemy zastosować dokładnie ten sam proces, co powyżej, aby obliczyć resztę dla każdego punktu danych. Na przykład obliczmy resztę dla drugiej osoby w naszym zbiorze danych:
Drugi osobnik waży 155 funtów. i wysokość 62 cale.
Aby poznać oczekiwany wzrost tej osoby, możemy podłączyć jej wagę do linii równania najlepszego dopasowania:
rozmiar = 32,783 + 0,2001*(waga)
Zatem przewidywana wielkość tego osobnika wynosi:
wzrost = 32,783 + 0,2001*(155)
wysokość = 63,7985 cala
Zatem reszta dla tego punktu danych wynosi 62 – 63,7985 = -1,7985 .
Oblicz wszystkie reszty
Stosując tę samą metodę, co w poprzednich dwóch przykładach, możemy obliczyć reszty dla każdego punktu danych:
Należy pamiętać, że niektóre reszty są dodatnie, a inne ujemne. Jeśli dodamy wszystkie reszty, ich suma wyniesie zero.
Dzieje się tak, ponieważ regresja liniowa znajduje linię, która minimalizuje całkowity kwadrat reszt, dlatego linia idealnie przechodzi przez dane, przy czym niektóre punkty danych leżą nad linią, a inne poniżej linii.
Zobacz pozostałości
Pamiętaj, że reszta to po prostu odległość między rzeczywistą wartością danych a wartością przewidywaną przez najlepiej dopasowaną linię regresji. Oto jak te odległości wyglądają wizualnie na chmurze punktów:
Należy pamiętać, że niektóre reszty są większe niż inne. Ponadto niektóre reszty są dodatnie, a inne ujemne, jak wspomnieliśmy wcześniej.
Tworzenie ścieżki resztkowej
Celem obliczenia reszt jest sprawdzenie, jak dobrze linia regresji pasuje do danych.
Większe reszty wskazują, że linia regresji nie jest dobrze dopasowana do danych, to znaczy rzeczywiste punkty danych nie są przybliżone do linii regresji.
Mniejsze reszty wskazują, że linia regresji lepiej pasuje do danych, to znaczy rzeczywiste punkty danych znajdują się bliżej linii regresji.
Przydatnym typem wykresu do wizualizacji wszystkich reszt na raz jest wykres reszt. Wykres reszt to rodzaj wykresu, który wyświetla wartości przewidywane w porównaniu z wartościami resztowymi dla modelu regresji.
Ten typ wykresu jest często używany do oceny, czy model regresji liniowej jest odpowiedni dla danego zbioru danych, a także do sprawdzenia heteroskedastyczności reszt .
Zapoznaj się z tym samouczkiem , aby dowiedzieć się, jak utworzyć wykres reszt dla prostego modelu regresji liniowej w programie Excel.