Kompletny przewodnik: jak raportować wyniki regresji logistycznej


Regresja logistyczna to rodzaj analizy regresji, którą stosujemy, gdyzmienna odpowiedzi jest binarna.

Do raportowania wyników modelu regresji logistycznej możemy użyć następującego ogólnego formatu:

Do analizy związku pomiędzy [zmienną predykcyjną 1], [zmienną predykcyjną 2],… [zmienną predykcyjną n ] i [zmienną odpowiedzi] wykorzystano regresję logistyczną.

Stwierdzono, że przy niezmienionym poziomie wszystkich pozostałych zmiennych predykcyjnych prawdopodobieństwo wystąpienia [zmiennej odpowiedzi] [wzrasta lub maleje] o [kilka procent] (95% CI [dolna granica, górna granica]) przy wzroście o jedną jednostkę w [zmienna predykcyjna 1].

Stwierdzono, że przy niezmienionym poziomie wszystkich pozostałych zmiennych predykcyjnych prawdopodobieństwo wystąpienia [zmiennej odpowiedzi] [wzrasta lub maleje] o [kilka procent] (95% CI [dolna granica, górna granica]) przy wzroście o jedną jednostkę w [zmienna predykcyjna 2].

Możemy użyć tej podstawowej składni, aby zgłosić iloraz szans i odpowiadający mu 95% przedział ufności dla ilorazów szans każdej zmiennej predykcyjnej w modelu.

Poniższy przykład pokazuje, jak w praktyce raportować wyniki modelu regresji logistycznej.

Przykład: raportowanie wyników regresji logistycznej

Załóżmy, że profesor chce zrozumieć, czy dwa różne programy studiów (program A i program B) oraz liczba przepracowanych godzin wpływają na prawdopodobieństwo zdania przez studenta egzaminu końcowego.

Pasuje do modelu regresji logistycznej, w którym godziny nauki i program studiów są zmiennymi predykcyjnymi, a wynik egzaminu (pozytywny lub niezaliczony) jako zmienna odpowiedzi.

Poniższe dane wyjściowe przedstawiają wyniki modelu regresji logistycznej:

 Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept) -2.415 0.623 -3.876 <0.000
program_A 0.344 0.156 2.205 0.027
hours 0.006 0.002 3.000 0.003

Przed przedstawieniem wyników modelu regresji logistycznej musimy najpierw obliczyć iloraz szans dla każdej zmiennej predykcyjnej, korzystając ze wzoru e β .

Na przykład, oto jak obliczyć iloraz szans dla każdej zmiennej predykcyjnej:

  • Programowy iloraz szans: e 0,344 = 1,41
  • Iloraz szans godzin: e 0,006 = 1,006

Musimy także obliczyć 95% przedział ufności dla ilorazu szans każdej zmiennej predykcyjnej, korzystając ze wzoru e (β +/- 1,96*błąd standardowy) .

Na przykład, oto jak obliczyć iloraz szans dla każdej zmiennej predykcyjnej:

  • 95% CI dla ilorazu szans programu: e 0,344 +/- 1,96*0,156 = [1,04; 1,92]
  • 95% CI dla ilorazu szans w godzinach: e 0,006 +/- 1,96*0,002 = [1,002, 1,009]

Teraz, gdy obliczyliśmy iloraz szans i odpowiadający mu przedział ufności dla każdej zmiennej predykcyjnej, możemy przedstawić wyniki modelu w następujący sposób:

Za pomocą regresji logistycznej zbadano związek programu nauczania z liczbą przepracowanych godzin na prawdopodobieństwo zdania egzaminu końcowego.

Stwierdzono, że przy stałej liczbie godzin nauki szanse na zdanie egzaminu końcowego wzrosły o 41% (95% CI [0,04; 0,92]) dla studentów, którzy korzystali z programu studiów A w porównaniu z programem studiów B.

Stwierdzono także, że przy stałym programie studiów szansa zdania egzaminu końcowego wzrastała o 0,6% (95% CI [0,002; 0,009]) na każdą dodatkową godzinę nauki.

Należy zauważyć, że raportowaliśmy iloraz szans dla zmiennych predykcyjnych w przeciwieństwie do wartości beta modelu, ponieważ ilorazy szans są łatwiejsze do interpretacji i zrozumienia.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat regresji logistycznej:

Wprowadzenie do regresji logistycznej
Jak przeprowadzić regresję logistyczną w R
Jak przeprowadzić regresję logistyczną w Pythonie
4 Przykłady zastosowania regresji logistycznej w życiu codziennym

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *