7 typowych typów regresji (i kiedy je stosować)
Analiza regresji jest jedną z najczęściej stosowanych technik statystycznych.
Podstawowym celem analizy regresji jest dopasowanie modelu, który najlepiej opisuje związek pomiędzy jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi .
W tym artykule przedstawiamy 7 najczęściej używanych modeli regresji w prawdziwym życiu wraz z informacją, kiedy należy zastosować każdy typ regresji.
1. Regresja liniowa
Regresję liniową stosuje się w celu dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a numeryczną zmienną odpowiedzi.
Użyj, gdy:
- Zależność między zmiennymi predykcyjnymi a zmienną odpowiedzi jest w miarę liniowa.
- Zmienna odpowiedzi jest ciągłą zmienną numeryczną.
Przykład: firma zajmująca się sprzedażą detaliczną może dopasować model regresji liniowej, wykorzystując wydatki na reklamę do przewidywania całkowitej sprzedaży.
Ponieważ związek między tymi dwiema zmiennymi jest prawdopodobnie liniowy (więcej pieniędzy wydanych na reklamę zazwyczaj skutkuje większą sprzedażą), a zmienna odpowiedzi (całkowita sprzedaż) jest ciągłą zmienną liczbową, sensowne jest dostosowanie modelu regresji liniowej.
Zasób: Wprowadzenie do wielokrotnej regresji liniowej
2. Regresja logistyczna
Regresję logistyczną stosuje się w celu dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a binarną zmienną odpowiedzi.
Użyj, gdy:
- Zmienna odpowiedzi jest binarna: może przyjmować tylko dwie wartości.
Przykład: Badacze medyczni mogą dopasować model regresji logistycznej, wykorzystując ćwiczenia fizyczne i palenie tytoniu, aby przewidzieć prawdopodobieństwo zawału serca u danej osoby.
Ponieważ zmienna reakcji (atak serca) jest binarna – dana osoba albo doświadcza zawału serca, albo nie – właściwe jest dopasowanie modelu regresji logistycznej.
Zasób: Wprowadzenie do regresji logistycznej
3. Regresja wielomianowa
Regresję wielomianową stosuje się w celu dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a numeryczną zmienną odpowiedzi.
Użyj, gdy:
- Zależność pomiędzy zmiennymi predykcyjnymi a zmienną odpowiedzi jest nieliniowa.
- Zmienna odpowiedzi jest ciągłą zmienną numeryczną.
Przykład: Psychologowie mogą dopasować regresję wielomianową, korzystając z „przepracowanych godzin”, aby przewidzieć „ogólne szczęście” pracowników w określonej branży.
Zależność między tymi dwiema zmiennymi jest prawdopodobnie nieliniowa. Oznacza to, że wraz ze wzrostem liczby godzin dana osoba może zgłaszać większe szczęście, ale po przekroczeniu określonej liczby przepracowanych godzin ogólne szczęście prawdopodobnie spadnie. Ponieważ ta zależność między zmienną predykcyjną a zmienną odpowiedzi jest nieliniowa, sensowne jest dopasowanie modelu regresji wielomianowej.
Zasób: Wprowadzenie do regresji wielomianowej
4. Regresja grzbietu
Regresja grzbietowa służy do dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a numeryczną zmienną odpowiedzi.
Użyj, gdy:
- Zmienne predykcyjne są silnie skorelowane, a wieloliniowość staje się problemem.
- Zmienna odpowiedzi jest ciągłą zmienną numeryczną.
Przykład: Analityk zajmujący się danymi dotyczącymi koszykówki może dopasować model regresji grzbietu, korzystając ze zmiennych predykcyjnych, takich jak punkty, asysty i zbiórki, aby przewidzieć pensje zawodników.
Zmienne predykcyjne będą prawdopodobnie silnie skorelowane, ponieważ lepsi gracze mają zwykle więcej punktów, asyst i zbiórek. Zatem problemem może być wieloliniowość, więc możemy zminimalizować ten problem, stosując regresję grzbietową.
Zasób: Wprowadzenie do regresji grzbietu
5. Regresja Lassa
Regresja Lasso jest bardzo podobna do regresji Ridge’a i służy do dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a liczbową zmienną odpowiedzi.
Użyj, gdy:
- Zmienne predykcyjne są silnie skorelowane, a wieloliniowość staje się problemem.
- Zmienna odpowiedzi jest ciągłą zmienną numeryczną.
Przykład: Ekonomista może dopasować model regresji lassa, wykorzystując zmienne predykcyjne, takie jak łączna liczba lat nauki, przepracowane godziny i koszty utrzymania, aby przewidzieć dochód gospodarstwa domowego.
Zmienne predykcyjne są prawdopodobnie silnie skorelowane, ponieważ lepiej wykształcone osoby zwykle mieszkają w miastach o wyższych kosztach życia i pracują więcej godzin. Zatem problemem może być współliniowość, więc możemy go zminimalizować, stosując regresję lasso.
Należy zauważyć, że regresja Lasso i regresja Ridge’a są dość podobne. Gdy wieloliniowość stanowi problem w zbiorze danych, zaleca się dopasowanie zarówno modelu regresji Lasso, jak i Ridge’a, aby sprawdzić, który model działa najlepiej.
Zasób: Wprowadzenie do regresji Lasso
6. Regresja Poissona
Regresja Poissona służy do dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.
Użyj, gdy:
- Zmienną odpowiedzi są dane „liczbowe” – na przykład liczba słonecznych dni w tygodniu, liczba wypadków drogowych w ciągu roku, liczba wykonanych połączeń dziennie itp.
Przykład: Uniwersytet może zastosować regresję Poissona, aby sprawdzić liczbę studentów, którzy ukończyli określony program studiów na podstawie ich średniej ocen w chwili przystąpienia do programu i ich płci.
Ponieważ w tym przypadku zmienną odpowiedzi są dane liczebności (możemy „policzyć” liczbę absolwentów – 200, 250, 300, 413 itd.), celowe jest zastosowanie regresji Poissona.
Zasób: Wprowadzenie do regresji Poissona
7. Regresja kwantylowa
Regresję kwantylową stosuje się w celu dopasowania modelu regresji opisującego związek między jedną lub większą liczbą zmiennych predykcyjnych a zmienną odpowiedzi.
Użyj, gdy:
- Chcielibyśmy oszacować konkretny kwantyl lub percentyl zmiennej odpowiedzi – na przykład 90. percentyl, 95. percentyl itp.
Przykład: Profesor może zastosować regresję kwantylową, aby przewidzieć oczekiwany 90. percentyl wyników egzaminu na podstawie liczby przestudiowanych godzin:
W tym przypadku, ponieważ profesor chce przewidzieć konkretny percentyl zmiennej odpowiedzi (wyniki egzaminu), wskazane jest zastosowanie regresji kwantylowej.
Zasób: Wprowadzenie do regresji kwantylowej
Dodatkowe zasoby
4 przykłady wykorzystania regresji liniowej w prawdziwym życiu
4 Przykłady zastosowania regresji logistycznej w życiu codziennym
ANOVA vs regresja: jaka jest różnica?
Kompletny przewodnik: jak zgłaszać wyniki regresji