Kompletny przewodnik: jak raportować wyniki regresji logistycznej
Regresja logistyczna to rodzaj analizy regresji, którą stosujemy, gdyzmienna odpowiedzi jest binarna.
Do raportowania wyników modelu regresji logistycznej możemy użyć następującego ogólnego formatu:
Do analizy związku pomiędzy [zmienną predykcyjną 1], [zmienną predykcyjną 2],… [zmienną predykcyjną n ] i [zmienną odpowiedzi] wykorzystano regresję logistyczną.
Stwierdzono, że przy niezmienionym poziomie wszystkich pozostałych zmiennych predykcyjnych prawdopodobieństwo wystąpienia [zmiennej odpowiedzi] [wzrasta lub maleje] o [kilka procent] (95% CI [dolna granica, górna granica]) przy wzroście o jedną jednostkę w [zmienna predykcyjna 1].
Stwierdzono, że przy niezmienionym poziomie wszystkich pozostałych zmiennych predykcyjnych prawdopodobieństwo wystąpienia [zmiennej odpowiedzi] [wzrasta lub maleje] o [kilka procent] (95% CI [dolna granica, górna granica]) przy wzroście o jedną jednostkę w [zmienna predykcyjna 2].
…
Możemy użyć tej podstawowej składni, aby zgłosić iloraz szans i odpowiadający mu 95% przedział ufności dla ilorazów szans każdej zmiennej predykcyjnej w modelu.
Poniższy przykład pokazuje, jak w praktyce raportować wyniki modelu regresji logistycznej.
Przykład: raportowanie wyników regresji logistycznej
Załóżmy, że profesor chce zrozumieć, czy dwa różne programy studiów (program A i program B) oraz liczba przepracowanych godzin wpływają na prawdopodobieństwo zdania przez studenta egzaminu końcowego.
Pasuje do modelu regresji logistycznej, w którym godziny nauki i program studiów są zmiennymi predykcyjnymi, a wynik egzaminu (pozytywny lub niezaliczony) jako zmienna odpowiedzi.
Poniższe dane wyjściowe przedstawiają wyniki modelu regresji logistycznej:
Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.415 0.623 -3.876 <0.000 program_A 0.344 0.156 2.205 0.027 hours 0.006 0.002 3.000 0.003
Przed przedstawieniem wyników modelu regresji logistycznej musimy najpierw obliczyć iloraz szans dla każdej zmiennej predykcyjnej, korzystając ze wzoru e β .
Na przykład, oto jak obliczyć iloraz szans dla każdej zmiennej predykcyjnej:
- Programowy iloraz szans: e 0,344 = 1,41
- Iloraz szans godzin: e 0,006 = 1,006
Musimy także obliczyć 95% przedział ufności dla ilorazu szans każdej zmiennej predykcyjnej, korzystając ze wzoru e (β +/- 1,96*błąd standardowy) .
Na przykład, oto jak obliczyć iloraz szans dla każdej zmiennej predykcyjnej:
- 95% CI dla ilorazu szans programu: e 0,344 +/- 1,96*0,156 = [1,04; 1,92]
- 95% CI dla ilorazu szans w godzinach: e 0,006 +/- 1,96*0,002 = [1,002, 1,009]
Teraz, gdy obliczyliśmy iloraz szans i odpowiadający mu przedział ufności dla każdej zmiennej predykcyjnej, możemy przedstawić wyniki modelu w następujący sposób:
Za pomocą regresji logistycznej zbadano związek programu nauczania z liczbą przepracowanych godzin na prawdopodobieństwo zdania egzaminu końcowego.
Stwierdzono, że przy stałej liczbie godzin nauki szanse na zdanie egzaminu końcowego wzrosły o 41% (95% CI [0,04; 0,92]) dla studentów, którzy korzystali z programu studiów A w porównaniu z programem studiów B.
Stwierdzono także, że przy stałym programie studiów szansa zdania egzaminu końcowego wzrastała o 0,6% (95% CI [0,002; 0,009]) na każdą dodatkową godzinę nauki.
Należy zauważyć, że raportowaliśmy iloraz szans dla zmiennych predykcyjnych w przeciwieństwie do wartości beta modelu, ponieważ ilorazy szans są łatwiejsze do interpretacji i zrozumienia.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat regresji logistycznej:
Wprowadzenie do regresji logistycznej
Jak przeprowadzić regresję logistyczną w R
Jak przeprowadzić regresję logistyczną w Pythonie
4 Przykłady zastosowania regresji logistycznej w życiu codziennym