Jak przeprowadzić regresję logistyczną w stata


Regresja logistyczna to metoda, której używamy do dopasowania modelu regresji, gdy zmienna odpowiedzi jest binarna. Oto kilka przykładów zastosowania regresji logistycznej:

  • Chcemy wiedzieć, jak ćwiczenia, dieta i waga wpływają na prawdopodobieństwo zawału serca. Zmienną odpowiedzi jest zawał serca , który ma dwa potencjalne skutki: zawał serca następuje lub nie występuje.
  • Chcemy wiedzieć, jak GPA, wynik ACT i liczba odbytych kursów AP wpływają na prawdopodobieństwo przyjęcia na konkretną uczelnię. Zmienną odpowiedzi jest akceptacja i ma ona dwa potencjalne wyniki: zaakceptowanie lub niezaakceptowanie.
  • Chcemy wiedzieć, czy liczba słów i tytuł wiadomości e-mail wpływają na prawdopodobieństwo, że wiadomość e-mail jest spamem. Zmienną odpowiedzi jest spam i ma ona dwa potencjalne skutki: spam lub brak spamu.

W tym samouczku wyjaśniono, jak przeprowadzić regresję logistyczną w Stata.

Przykład: regresja logistyczna w Stata

Załóżmy, że chcemy zrozumieć, czy wiek matki i nawyki palenia wpływają na prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową.

Aby to zbadać, możemy przeprowadzić regresję logistyczną, wykorzystując wiek i palenie (tak lub nie) jako zmienne objaśniające oraz niską masę urodzeniową (tak lub nie) jako zmienną odpowiedzi. Ponieważ zmienna odpowiedzi jest binarna – istnieją tylko dwa możliwe wyniki – należy zastosować regresję logistyczną.

Wykonaj następujące kroki w programie Stata, aby przeprowadzić regresję logistyczną, korzystając ze zbioru danych o nazwie lbw , który zawiera dane dotyczące 189 różnych matek.

Krok 1: Załaduj dane.

Załaduj dane, wpisując w polu poleceń:

użyj https://www.stata-press.com/data/r13/lbw

Krok 2: Uzyskaj podsumowanie danych.

Aby szybko zrozumieć dane, z którymi pracujesz, wpisz następujące polecenie w polu Polecenie:

podsumować

Zbiór danych o niskiej masie urodzeniowej w Stata

Widzimy, że w zbiorze danych znajduje się 11 różnych zmiennych, ale interesują nas tylko trzy:

  • niska – niezależnie od tego, czy dziecko ma niską masę urodzeniową. 1 = tak, 0 = nie.
  • wiek – wiek matki.
  • palić – niezależnie od tego, czy matka paliła w czasie ciąży. 1 = tak, 0 = nie.

Krok 3: Wykonaj regresję logistyczną.

Wpisz następujące polecenie w polu poleceń, aby przeprowadzić regresję logistyczną, używając wieku i dymu jako zmiennych objaśniających oraz niskiej wartości jako zmiennej odpowiedzi.

logit dymny o niskim wieku

Dane wyjściowe regresji logistycznej w Stata

Oto jak zinterpretować najciekawsze liczby w wyniku:

Współczynnik (wiek): -.0497792. Utrzymując poziom dymu na stałym poziomie, każdy rok wzrostu wieku wiąże się ze wzrostem szansy na urodzenie dziecka z niską masą urodzeniową o exp(-0,0497792) = 0,951. Liczba ta będąca mniejsza niż 1 oznacza, że wzrost wieku w rzeczywistości wiąże się ze zmniejszeniem szans na urodzenie dziecka z niską masą urodzeniową.

Załóżmy na przykład, że matka A i matka B palą. Jeśli matka A jest o rok starsza od matki B, wówczas ryzyko, że matka A urodzi dziecko z niską masą urodzeniową, wynosi tylko 95,1% szans, że matka B urodzi dziecko z niską masą urodzeniową. poród.

P>|z| (wiek): 0,119. Jest to wartość p powiązana ze statystyką testową dotyczącą wieku . Ponieważ wartość ta jest nie mniejsza niż 0,05, wiek nie jest statystycznie istotnym predyktorem niskiej masy urodzeniowej.

Iloraz szans (dym): 0,6918486. Przy niezmienionym wieku prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową u matki, która pali w czasie ciąży, wynosi exp(.6918486) = 1,997, w porównaniu z matką, która nie pali w czasie ciąży.

Załóżmy na przykład, że matka A i matka B mają po 30 lat. Jeśli matka A pali w czasie ciąży, a matka B nie pali, wówczas ryzyko, że matka A urodzi dziecko z niską masą urodzeniową, jest o 99,7% większe niż ryzyko, że matka B urodzi dziecko z niską masą urodzeniową.

P>|z| (dym): 0,032. Jest to wartość p powiązana ze statystyką testową dla dymu . Ponieważ wartość ta jest mniejsza niż 0,05, palenie jest statystycznie istotnym predyktorem niskiej masy urodzeniowej.

Krok 4: Ogłoś wyniki.

Na koniec chcielibyśmy przedstawić wyniki naszej regresji logistycznej. Oto przykład, jak to zrobić:

Przeprowadzono regresję logistyczną w celu ustalenia, czy wiek matki i palenie papierosów wpływają na prawdopodobieństwo urodzenia dziecka z niską masą urodzeniową. Do analizy wykorzystano próbę 189 matek.

Wyniki wykazały, że istnieje istotny statystycznie związek pomiędzy paleniem tytoniu a prawdopodobieństwem wystąpienia niskiej masy urodzeniowej (z = 2,15, p = 0,032), natomiast nie stwierdzono istotnego statystycznie związku pomiędzy wiekiem a prawdopodobieństwem wystąpienia niskiej masy urodzeniowej (z = -1,56 , p = 0,032). 119).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *