Zrozumienie hipotezy zerowej dla regresji logistycznej
Regresja logistyczna to rodzaj modelu regresji, którego możemy użyć do zrozumienia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi , gdy zmienna odpowiedzi jest binarna.
Jeśli mamy tylko jedną zmienną predykcyjną i jedną zmienną odpowiedzi, możemy zastosować prostą regresję logistyczną , która wykorzystuje następujący wzór do oszacowania związku między zmiennymi:
log[p(X) / (1-p(X))] = β 0 + β 1
Wzór po prawej stronie równania przewiduje logarytm szansy, że zmienna odpowiedzi przyjmie wartość 1.
Prosta regresja logistyczna wykorzystuje następujące hipotezy zerowe i alternatywne:
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
Hipoteza zerowa stwierdza, że współczynnik β 1 jest równy zero. Innymi słowy, nie ma statystycznie istotnego związku między zmienną predykcyjną x a zmienną odpowiedzi y.
Hipoteza alternatywna stwierdza, że β 1 nie jest równe zero. Innymi słowy, istnieje statystycznie istotna zależność pomiędzy x i y.
Jeśli mamy wiele zmiennych predykcyjnych i zmienną odpowiedzi, możemy zastosować wielokrotną regresję logistyczną , która wykorzystuje następujący wzór do oszacowania związku między zmiennymi:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Wielokrotna regresja logistyczna wykorzystuje następujące hipotezy zerowe i alternatywne:
- H 0 : β 1 = β 2 = … = β k = 0
- H ZA : β 1 = β 2 = … = β k ≠ 0
Hipoteza zerowa zakłada, że wszystkie współczynniki w modelu są równe zeru. Innymi słowy, żadna ze zmiennych predykcyjnych nie ma statystycznie istotnego związku ze zmienną odpowiedzi y.
Hipoteza alternatywna głosi, że nie wszystkie współczynniki są jednocześnie równe zeru.
Poniższe przykłady pokazują, jak podjąć decyzję o odrzuceniu lub nie odrzuceniu hipotezy zerowej w modelach prostej regresji logistycznej i wielokrotnej regresji logistycznej.
Przykład 1: prosta regresja logistyczna
Załóżmy, że profesor chce wykorzystać liczbę przepracowanych godzin do przewidzenia oceny z egzaminu, jaką uzyskają uczniowie jego klasy. Zbiera dane od 20 uczniów i dopasowuje prosty model regresji logistycznej.
Możemy użyć następującego kodu w R, aby dopasować prosty model regresji logistycznej:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Aby określić, czy istnieje statystycznie istotny związek między przestudiowanymi godzinami a wynikiem egzaminu, musimy przeanalizować ogólną wartość chi-kwadrat modelu i odpowiadającą jej wartość p.
Możemy użyć następującego wzoru do obliczenia całkowitej wartości chi-kwadrat modelu:
X 2 = (Odchylenie zerowe – Odchylenie resztkowe) / (Zero Df – Odchylenie resztkowe)
Wartość p wynosi 0,2717286 .
Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie możemy odrzucić hipotezy zerowej. Innymi słowy, nie ma statystycznie istotnego związku między przepracowanymi godzinami a wynikami egzaminów.
Przykład 2: Wielokrotna regresja logistyczna
Załóżmy, że profesor chce wykorzystać liczbę przepracowanych godzin i liczbę zdanych egzaminów przygotowawczych, aby przewidzieć, jakie oceny uzyskają uczniowie na jego zajęciach. Gromadzi dane od 20 uczniów i dopasowuje model regresji wielokrotnej logistycznej.
Możemy użyć następującego kodu w R, aby dopasować model regresji wielokrotnej logistycznej:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
Wartość p dla ogólnej statystyki chi-kwadrat modelu wynosi 0,01971255 .
Ponieważ ta wartość p jest mniejsza niż 0,05, odrzucamy hipotezę zerową. Innymi słowy, istnieje statystycznie istotna zależność pomiędzy sumą przepracowanych godzin i zdanych egzaminów przygotowawczych a oceną końcową uzyskaną z egzaminu.
Dodatkowe zasoby
Poniższe samouczki zawierają dodatkowe informacje na temat regresji logistycznej:
Wprowadzenie do regresji logistycznej
Jak raportować wyniki regresji logistycznej
Regresja logistyczna a regresja liniowa: główne różnice