Jak dokonywać prognoz za pomocą regresji liniowej
Regresja liniowa to metoda, którą możemy zastosować do ilościowego określenia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
Jednym z najczęstszych powodów dopasowania modelu regresji jest wykorzystanie modelu do przewidywania wartości nowych obserwacji.
Aby dokonać prognoz za pomocą modelu regresji, wykonujemy następujące kroki:
- Krok 1: Zbierz dane.
- Krok 2: Dopasuj model regresji do danych.
- Krok 3: Sprawdź, czy model pasuje do danych.
- Krok 4: Użyj dopasowanego równania regresji, aby przewidzieć wartości nowych obserwacji.
Poniższe przykłady pokazują, jak używać modeli regresji do tworzenia prognoz.
Przykład 1: Tworzenie prognoz za pomocą prostego modelu regresji liniowej
Załóżmy, że lekarz zbiera dane na temat wzrostu (w calach) i masy ciała (w funtach) 50 pacjentów.
Następnie dopasowuje prosty model regresji liniowej, wykorzystując „wagę” jako zmienną predykcyjną i „wzrost” jako zmienną odpowiedzi.
Dopasowane równanie regresji to:
Rozmiar = 32,7830 + 0,2001*(waga)
Po sprawdzeniu, czy spełnione są założenia modelu regresji liniowej, lekarz stwierdza, że model dobrze pasuje do danych.
Następnie może wykorzystać model do przewidywania wzrostu nowych pacjentów na podstawie ich masy ciała.
Załóżmy na przykład, że nowy pacjent waży 170 funtów. Korzystając z modelu, przewidywalibyśmy, że ten pacjent będzie miał wzrost 66,8 cala:
Wysokość = 32,7830 + 0,2001*(170) = 66,8 cala
Przykład 2: Tworzenie prognoz za pomocą modelu wielokrotnej regresji liniowej
Zakłada się, że ekonomista zbiera dane o łącznej liczbie lat nauki, przepracowanych godzinach tygodniowo i rocznych dochodach 30 osób.
Następnie dopasowuje model regresji liniowej, wykorzystując „całkowitą liczbę lat nauki” i „przepracowane godziny w tygodniu” jako zmienną predykcyjną oraz „roczny dochód” jako zmienną odpowiedzi.
Dopasowane równanie regresji to:
Dochód = 1342,29 + 3324,33*(lata nauki) + 765,88*(przepracowane godziny tygodniowo)
Po sprawdzeniu, czy założenia modelu regresji liniowej są spełnione, ekonomista dochodzi do wniosku, że model dobrze pasuje do danych.
Następnie może wykorzystać ten model do przewidzenia rocznego dochodu nowej osoby na podstawie całkowitej liczby lat nauki i przepracowanych godzin tygodniowo.
Załóżmy na przykład, że nowa osoba ma łącznie 16 lat nauki i pracuje średnio 40 godzin tygodniowo. Korzystając z modelu, przewidywalibyśmy, że ta osoba będzie miała roczny dochód w wysokości 85 166,77 USD:
Dochód = 1342,29 + 3324,33*(16) + 765,88*(45) = 85166,77 dolarów
O stosowaniu przedziałów ufności
Kiedy używasz modelu regresji do przewidywania nowych obserwacji, wartość przewidywana przez model regresji nazywana jest estymacją punktową .
Chociaż estymacja punktowa reprezentuje nasze najlepsze oszacowanie wartości nowej obserwacji, jest mało prawdopodobne, aby dokładnie odpowiadała wartości nowej obserwacji.
Aby więc uchwycić tę niepewność, możemy utworzyć przedział ufności – zakres wartości, który prawdopodobnie będzie zawierał parametr populacji z pewnym poziomem ufności.
Na przykład zamiast przewidywać, że nowa osoba będzie miała 66,8 cala wzrostu, możemy utworzyć następujący przedział ufności:
95% przedział ufności = [64,8 cala, 68,8 cala]
Zinterpretowalibyśmy ten przedział w ten sposób, że mamy 95% pewności, że rzeczywisty wzrost tej osoby mieści się w przedziale od 64,8 cala do 68,8 cala.
Środki ostrożności, które należy podjąć podczas dokonywania prognoz
Używając modelu regresji do prognozowania, należy pamiętać o następujących kwestiach:
1. Używaj modelu jedynie do dokonywania predykcji w zakresie danych wykorzystanych do estymacji modelu regresji.
Załóżmy na przykład, że dopasowujemy model regresji przy użyciu zmiennej predykcyjnej „waga”, a waga osób w próbie, którą wykorzystaliśmy do oszacowania modelu, wynosiła od 120 do 180 funtów.
Używanie modelu do oszacowania wzrostu osoby ważącej 200 funtów nie byłoby uzasadnione, ponieważ wykracza on poza zakres zmiennej predykcyjnej użytej do oszacowania modelu.
Możliwe, że związek między wagą a wzrostem będzie inny poza zakresem od 120 do 180 funtów. Dlatego nie powinniśmy używać tego modelu do oszacowania wzrostu osoby ważącej 200 funtów.
2. Używaj modelu wyłącznie do przewidywania populacji, którą wybrałeś.
Załóżmy na przykład, że ekonomista wybiera populację z próby wszystkich ludzi mieszkających w danym mieście.
Do przewidywania rocznych dochodów osób w tym mieście powinniśmy używać wyłącznie dopasowanego modelu regresji, ponieważ cała próba dopasowana do modelu mieszkała w tym mieście.
Dodatkowe zasoby
Wprowadzenie do prostej regresji liniowej
Wprowadzenie do wielokrotnej regresji liniowej
Wprowadzenie do przedziałów ufności
Cztery założenia regresji liniowej