Zrozumienie hipotezy zerowej dla regresji logistycznej


Regresja logistyczna to rodzaj modelu regresji, którego możemy użyć do zrozumienia związku między jedną lub większą liczbą zmiennych predykcyjnych azmienną odpowiedzi , gdy zmienna odpowiedzi jest binarna.

Jeśli mamy tylko jedną zmienną predykcyjną i jedną zmienną odpowiedzi, możemy zastosować prostą regresję logistyczną , która wykorzystuje następujący wzór do oszacowania związku między zmiennymi:

log[p(X) / (1-p(X))] = β 0 + β 1

Wzór po prawej stronie równania przewiduje logarytm szansy, że zmienna odpowiedzi przyjmie wartość 1.

Prosta regresja logistyczna wykorzystuje następujące hipotezy zerowe i alternatywne:

  • H 0 : β 1 = 0
  • H A : β 1 ≠ 0

Hipoteza zerowa stwierdza, że współczynnik β 1 jest równy zero. Innymi słowy, nie ma statystycznie istotnego związku między zmienną predykcyjną x a zmienną odpowiedzi y.

Hipoteza alternatywna stwierdza, że β 1 nie jest równe zero. Innymi słowy, istnieje statystycznie istotna zależność pomiędzy x i y.

Jeśli mamy wiele zmiennych predykcyjnych i zmienną odpowiedzi, możemy zastosować wielokrotną regresję logistyczną , która wykorzystuje następujący wzór do oszacowania związku między zmiennymi:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Wielokrotna regresja logistyczna wykorzystuje następujące hipotezy zerowe i alternatywne:

  • H 0 : β 1 = β 2 = … = β k = 0
  • H ZA : β 1 = β 2 = … = β k ≠ 0

Hipoteza zerowa zakłada, że wszystkie współczynniki w modelu są równe zeru. Innymi słowy, żadna ze zmiennych predykcyjnych nie ma statystycznie istotnego związku ze zmienną odpowiedzi y.

Hipoteza alternatywna głosi, że nie wszystkie współczynniki są jednocześnie równe zeru.

Poniższe przykłady pokazują, jak podjąć decyzję o odrzuceniu lub nie odrzuceniu hipotezy zerowej w modelach prostej regresji logistycznej i wielokrotnej regresji logistycznej.

Przykład 1: prosta regresja logistyczna

Załóżmy, że profesor chce wykorzystać liczbę przepracowanych godzin do przewidzenia oceny z egzaminu, jaką uzyskają uczniowie jego klasy. Zbiera dane od 20 uczniów i dopasowuje prosty model regresji logistycznej.

Możemy użyć następującego kodu w R, aby dopasować prosty model regresji logistycznej:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Aby określić, czy istnieje statystycznie istotny związek między przestudiowanymi godzinami a wynikiem egzaminu, musimy przeanalizować ogólną wartość chi-kwadrat modelu i odpowiadającą jej wartość p.

Możemy użyć następującego wzoru do obliczenia całkowitej wartości chi-kwadrat modelu:

X 2 = (Odchylenie zerowe – Odchylenie resztkowe) / (Zero Df – Odchylenie resztkowe)

Wartość p wynosi 0,2717286 .

Ponieważ ta wartość p jest nie mniejsza niż 0,05, nie możemy odrzucić hipotezy zerowej. Innymi słowy, nie ma statystycznie istotnego związku między przepracowanymi godzinami a wynikami egzaminów.

Przykład 2: Wielokrotna regresja logistyczna

Załóżmy, że profesor chce wykorzystać liczbę przepracowanych godzin i liczbę zdanych egzaminów przygotowawczych, aby przewidzieć, jakie oceny uzyskają uczniowie na jego zajęciach. Gromadzi dane od 20 uczniów i dopasowuje model regresji wielokrotnej logistycznej.

Możemy użyć następującego kodu w R, aby dopasować model regresji wielokrotnej logistycznej:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

Wartość p dla ogólnej statystyki chi-kwadrat modelu wynosi 0,01971255 .

Ponieważ ta wartość p jest mniejsza niż 0,05, odrzucamy hipotezę zerową. Innymi słowy, istnieje statystycznie istotna zależność pomiędzy sumą przepracowanych godzin i zdanych egzaminów przygotowawczych a oceną końcową uzyskaną z egzaminu.

Dodatkowe zasoby

Poniższe samouczki zawierają dodatkowe informacje na temat regresji logistycznej:

Wprowadzenie do regresji logistycznej
Jak raportować wyniki regresji logistycznej
Regresja logistyczna a regresja liniowa: główne różnice

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *