Jak przeprowadzić regresję logistyczną w stata
Regresja logistyczna to metoda, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Oto kilka przykładów zastosowania regresji logistycznej:
- Chcemy wiedzieć, jak ćwiczenia, dieta i waga wpływają na prawdopodobieństwo zawału serca. Zmienną odpowiedzi jest zawał serca , który ma dwa potencjalne skutki: zawał serca następuje lub nie występuje.
- Chcemy wiedzieć, jak GPA, wynik ACT i liczba odbytych kursów AP wpływają na prawdopodobieństwo przyjęcia na konkretną uczelnię. Zmienną odpowiedzi jest akceptacja i ma ona dwa potencjalne wyniki: zaakceptowanie lub niezaakceptowanie.
- Chcemy wiedzieć, czy liczba słów i tytuł wiadomości e-mail wpływają na prawdopodobieństwo, że wiadomość e-mail jest spamem. Zmienną odpowiedzi jest spam i ma ona dwa potencjalne skutki: spam lub brak spamu.
W tym samouczku wyjaśniono, jak przeprowadzić regresję logistyczną w Stata.
Przykład: regresja logistyczna w Stata
Załóżmy, że chcemy zrozumieć, czy wiek matki i nawyki palenia wpływają na prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową.
Aby to zbadać, możemy przeprowadzić regresję logistyczną, wykorzystując wiek i palenie (tak lub nie) jako zmienne objaśniające oraz niską masę urodzeniową (tak lub nie) jako zmienną odpowiedzi. Ponieważ zmienna odpowiedzi jest binarna – istnieją tylko dwa możliwe wyniki – należy zastosować regresję logistyczną.
Wykonaj następujące kroki w programie Stata, aby przeprowadzić regresję logistyczną, korzystając ze zbioru danych o nazwie lbw , który zawiera dane dotyczące 189 różnych matek.
Krok 1: Załaduj dane.
Załaduj dane, wpisując w polu poleceń:
użyj https://www.stata-press.com/data/r13/lbw
Krok 2: Uzyskaj podsumowanie danych.
Aby szybko zrozumieć dane, z którymi pracujesz, wpisz następujące polecenie w polu Polecenie:
podsumować
Widzimy, że w zbiorze danych znajduje się 11 różnych zmiennych, ale interesują nas tylko trzy:
- niska – niezależnie od tego, czy dziecko ma niską masę urodzeniową. 1 = tak, 0 = nie.
- wiek – wiek matki.
- palić – niezależnie od tego, czy matka paliła w czasie ciąży. 1 = tak, 0 = nie.
Krok 3: Wykonaj regresję logistyczną.
Wpisz następujące polecenie w polu poleceń, aby przeprowadzić regresję logistyczną, używając wieku i dymu jako zmiennych objaśniających oraz niskiej wartości jako zmiennej odpowiedzi.
logit dymny o niskim wieku
Oto jak zinterpretować najciekawsze liczby w wyniku:
Współczynnik (wiek): -.0497792. Utrzymując poziom dymu na stałym poziomie, każdy rok wzrostu wieku wiąże się ze wzrostem szansy na urodzenie dziecka z niską masą urodzeniową o exp(-0,0497792) = 0,951. Liczba ta będąca mniejsza niż 1 oznacza, że wzrost wieku w rzeczywistości wiąże się ze zmniejszeniem szans na urodzenie dziecka z niską masą urodzeniową.
Załóżmy na przykład, że matka A i matka B palą. Jeśli matka A jest o rok starsza od matki B, wówczas ryzyko, że matka A urodzi dziecko z niską masą urodzeniową, wynosi tylko 95,1% szans, że matka B urodzi dziecko z niską masą urodzeniową. poród.
P>|z| (wiek): 0,119. Jest to wartość p powiązana ze statystyką testową dotyczącą wieku . Ponieważ wartość ta jest nie mniejsza niż 0,05, wiek nie jest statystycznie istotnym predyktorem niskiej masy urodzeniowej.
Iloraz szans (dym): 0,6918486. Przy niezmienionym wieku prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową u matki, która pali w czasie ciąży, wynosi exp(.6918486) = 1,997, w porównaniu z matką, która nie pali w czasie ciąży.
Załóżmy na przykład, że matka A i matka B mają po 30 lat. Jeśli matka A pali w czasie ciąży, a matka B nie pali, wówczas ryzyko, że matka A urodzi dziecko z niską masą urodzeniową, jest o 99,7% większe niż ryzyko, że matka B urodzi dziecko z niską masą urodzeniową.
P>|z| (dym): 0,032. Jest to wartość p powiązana ze statystyką testową dla dymu . Ponieważ wartość ta jest mniejsza niż 0,05, palenie jest statystycznie istotnym predyktorem niskiej masy urodzeniowej.
Krok 4: Ogłoś wyniki.
Na koniec chcielibyśmy przedstawić wyniki naszej regresji logistycznej. Oto przykład, jak to zrobić:
Przeprowadzono regresję logistyczną w celu ustalenia, czy wiek matki i palenie papierosów wpływają na prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową. Do analizy wykorzystano próbę 189 matek.
Wyniki wykazały, że istnieje istotny statystycznie związek pomiędzy paleniem tytoniu a prawdopodobieństwem wystąpienia niskiej masy urodzeniowej (z = 2,15, p = 0,032), natomiast nie stwierdzono istotnego statystycznie związku pomiędzy wiekiem a prawdopodobieństwem wystąpienia niskiej masy urodzeniowej (z = -1,56 , p = 0,032). 119).