Kiedy należy stosować regresję wielomianową?


Regresja wielomianowa to technika, której możemy użyć do dopasowania modelu regresji, gdy związek między zmiennymi predykcyjnymi a zmienną odpowiedzi jest nieliniowy.

Model regresji wielomianowej ma następującą postać:

Y = β 0 + β 1 X + β 2 X 2 + … + β godz

W praktyce istnieją trzy proste sposoby ustalenia, czy należy zastosować regresję wielomianową, czy prostszy model, taki jak regresja liniowa .

1. Utwórz wykres rozrzutu zmiennej predykcyjnej i zmiennej odpowiedzi

Najłatwiejszym sposobem ustalenia, czy należy zastosować regresję wielomianową, jest utworzenie prostego wykresu rozrzutu zmiennej predykcyjnej i zmiennej odpowiedzi.

Załóżmy na przykład, że chcemy użyć zmiennej predykcyjnej „godziny nauki”, aby przewidzieć ocenę, jaką uczeń otrzyma z egzaminu końcowego.

Przed dopasowaniem modelu regresji możemy najpierw stworzyć wykres rozrzutu godzin przestudiowanych w porównaniu z wynikami egzaminu. Załóżmy, że nasz wykres rozrzutu wygląda następująco:

Zależność między przepracowanymi godzinami a wynikami egzaminów wydaje się liniowa , zatem sensowne byłoby dopasowanie do tego zbioru danych prostego modelu regresji liniowej.

Załóżmy jednak, że wykres rozrzutu w rzeczywistości wygląda następująco:

Zależność ta wydaje się nieco bardziej nieliniowa , co mówi nam, że rozsądniejszym rozwiązaniem może być dopasowanie modelu regresji wielomianowej.

2. Utwórz wykres wartości dopasowanych i resztowych

Innym sposobem ustalenia, czy należy zastosować regresję wielomianową, jest dopasowanie modelu regresji liniowej do zbioru danych, a następnie utworzenie wykresu dopasowanych wartości względem reszt modelu.

Jeżeli w resztach występuje wyraźny nieliniowy trend, oznacza to, że regresja wielomianowa może zapewnić lepsze dopasowanie danych.

Załóżmy na przykład, że dopasowujemy model regresji liniowej, wykorzystując przestudiowane godziny jako zmienną predykcyjną i wynik egzaminu jako zmienną odpowiedzi, a następnie tworzymy następujący wykres dopasowanych wartości w funkcji reszt:

Reszty są losowo rozproszone wokół zera, bez wyraźnego wzoru, co wskazuje, że model liniowy zapewnia odpowiednie dopasowanie do danych.

Załóżmy jednak, że nasz wykres dopasowanych wartości względem reszt w rzeczywistości wygląda następująco:

Z wykresu widać, że reszty mają wyraźny nieliniowy wzór – reszty mają kształt litery „U”.

To mówi nam, że model liniowy nie jest odpowiedni dla tych konkretnych danych i że mądrzej byłoby zamiast tego dopasować model regresji wielomianowej.

3. Oblicz skorygowaną wartość R-kwadrat modelu

Innym sposobem ustalenia, czy należy zastosować regresję wielomianową, jest dopasowanie zarówno modelu regresji liniowej, jak i modelu regresji wielomianowej i obliczenie dopasowanych wartości R-kwadrat dla obu modeli.

Skorygowany R-kwadrat reprezentuje część wariancji zmiennej odpowiedzi, którą można wyjaśnić zmiennymi predykcyjnymi w modelu, skorygowaną o liczbę zmiennych predykcyjnych w modelu.

Model z najwyższym skorygowanym kwadratem R reprezentuje model, który najlepiej potrafi wykorzystać zmienne predykcyjne do wyjaśnienia zmienności zmiennej odpowiedzi.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak przeprowadzić regresję wielomianową przy użyciu różnych programów statystycznych:

Wprowadzenie do regresji wielomianowej
Jak wykonać regresję wielomianową w R
Jak wykonać regresję wielomianową w Pythonie
Jak wykonać regresję wielomianową w programie Excel

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *