6 hipotez regresji logistycznej (z przykładami)
Regresja logistyczna to metoda, której możemy użyć do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna.
Przed dopasowaniem modelu do zbioru danych regresja logistyczna przyjmuje następujące założenia:
Założenie nr 1: zmienna odpowiedzi jest binarna
Regresja logistyczna zakłada, że zmienna odpowiedzi ma tylko dwa możliwe wyniki. Oto kilka przykładów:
- Tak lub nie
- Mężczyzna czy kobieta
- Sukces lub porażka
- Napisane lub niepisane
- Złośliwy lub łagodny
Jak sprawdzić to założenie: Po prostu policz liczbę unikalnych wyników występujących w zmiennej odpowiedzi. Jeśli istnieją więcej niż dwa możliwe wyniki, zamiast tego konieczne będzie wykonanie regresji porządkowej .
Hipoteza nr 2: obserwacje są niezależne
Regresja logistyczna zakłada, że obserwacje w zbiorze danych są od siebie niezależne. Oznacza to, że obserwacje nie powinny pochodzić z powtarzanych pomiarów tej samej osoby ani być ze sobą w żaden sposób powiązane.
Jak przetestować tę hipotezę: Najprostszym sposobem przetestowania tej hipotezy jest utworzenie wykresu reszt w funkcji czasu (tj. kolejności obserwacji) i sprawdzenie, czy istnieje losowy trend. Jeśli nie ma losowego wzorca, założenie to może zostać naruszone.
Hipoteza nr 3: nie ma współliniowości pomiędzy zmiennymi objaśniającymi
Regresja logistyczna zakłada, że pomiędzy zmiennymi objaśniającymi nie występuje poważna współliniowość .
Wielokolinearność ma miejsce, gdy dwie lub więcej zmiennych objaśniających jest ze sobą silnie skorelowanych, w związku z czym nie dostarczają unikalnych lub niezależnych informacji w modelu regresji. Jeśli stopień korelacji między zmiennymi jest wystarczająco wysoki, może to powodować problemy podczas dopasowywania i interpretacji modelu.
Załóżmy na przykład, że chcesz przeprowadzić regresję logistyczną, używając maksymalnego skoku pionowego jako zmiennej odpowiedzi i następujących zmiennych jako zmiennych objaśniających:
- Rozmiar gracza
- Rozmiar gracza
- Godziny spędzone na ćwiczeniach dziennie
W tym przypadku wzrost i rozmiar buta są prawdopodobnie silnie powiązane, ponieważ wyżsi ludzie mają zwykle większe rozmiary butów. Oznacza to, że wieloliniowość będzie prawdopodobnie problemem, jeśli w regresji zastosujemy te dwie zmienne.
Jak sprawdzić to założenie: Najczęstszym sposobem wykrycia wielowspółliniowości jest użycie współczynnika inflacji wariancji (VIF), który mierzy korelację i siłę korelacji pomiędzy zmiennymi predykcyjnymi w modelu regresji. Sprawdź ten samouczek , aby uzyskać szczegółowe wyjaśnienie, jak obliczać i interpretować wartości VIF.
Założenie nr 4: Nie ma skrajnych wartości odstających
Regresja logistyczna zakłada, że w zbiorze danych nie ma skrajnych wartości odstających ani wpływowych obserwacji.
Jak sprawdzić to założenie: Najpopularniejszym sposobem sprawdzenia, czy w zbiorze danych znajdują się skrajne wartości odstające i obserwacje mające wpływ, jest obliczenie odległości Cooka dla każdej obserwacji. Jeśli rzeczywiście istnieją wartości odstające, możesz (1) je usunąć, (2) zastąpić je wartością taką jak średnia lub mediana, lub (3) po prostu zachować je w modelu, ale zanotować je podczas raportowania regresji . wyniki.
Hipoteza nr 5: Istnieje liniowa zależność pomiędzy zmiennymi objaśniającymi a logitem zmiennej odpowiedzi
Regresja logistyczna zakłada, że istnieje liniowa zależność pomiędzy każdą zmienną objaśniającą a logitem zmiennej odpowiedzi. Przypomnijmy, że logit definiuje się jako:
Logit(p) = log(p / (1-p)) gdzie p jest prawdopodobieństwem wyniku dodatniego.
Jak przetestować tę hipotezę: Najłatwiejszym sposobem sprawdzenia, czy ta hipoteza jest prawdziwa, jest użycie testu Boxa-Tidwella.
Założenie nr 6: Wielkość próby jest wystarczająco duża
Regresja logistyczna zakłada, że wielkość próby zbioru danych jest wystarczająco duża, aby wyciągnąć prawidłowe wnioski z dopasowanego modelu regresji logistycznej.
Jak sprawdzić tę hipotezę: Z reguły dla każdej zmiennej objaśniającej powinno być co najmniej 10 przypadków z najrzadziej występującym wynikiem. Na przykład, jeśli masz 3 zmienne objaśniające, a oczekiwane prawdopodobieństwo wystąpienia najrzadszego wyniku wynosi 0,20, wówczas wielkość próby powinna wynosić co najmniej (10*3) / 0,20 = 150 .
Założenia regresji logistycznej a. Regresja liniowa
W przeciwieństwie do regresji liniowej, regresja logistyczna nie wymaga:
- Liniowa zależność pomiędzy zmiennymi objaśniającymi a zmienną odpowiedzi.
- Reszty modelu mają rozkład normalny.
- Reszty muszą mieć stałą wariancję, zwaną także homoskedastycznością .
Powiązane: Cztery założenia regresji liniowej
Dodatkowe zasoby
4 Przykłady zastosowania regresji logistycznej w życiu codziennym
Jak przeprowadzić regresję logistyczną w SPSS
Jak przeprowadzić regresję logistyczną w programie Excel
Jak przeprowadzić regresję logistyczną w Stata