Comprendere l'ipotesi nulla per la regressione logistica
La regressione logistica è un tipo di modello di regressione che possiamo utilizzare per comprendere la relazione tra una o più variabili predittive e una variabile di risposta quando la variabile di risposta è binaria.
Se abbiamo solo una variabile predittore e una variabile di risposta, possiamo utilizzare la regressione logistica semplice , che utilizza la seguente formula per stimare la relazione tra le variabili:
log[p(X) / (1-p(X))] = β 0 + β 1
La formula sul lato destro dell’equazione prevede il logaritmo delle probabilità che la variabile di risposta assuma il valore 1.
La regressione logistica semplice utilizza le seguenti ipotesi nulle e alternative:
- H0 : β1 = 0
- H A : β 1 ≠ 0
L’ipotesi nulla prevede che il coefficiente β 1 sia pari a zero. In altre parole, non esiste una relazione statisticamente significativa tra la variabile predittrice x e la variabile risposta y.
L’ipotesi alternativa afferma che β 1 non è uguale a zero. In altre parole, esiste una relazione statisticamente significativa tra x e y.
Se disponiamo di più variabili predittive e di una variabile di risposta, possiamo utilizzare la regressione logistica multipla , che utilizza la seguente formula per stimare la relazione tra le variabili:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
La regressione logistica multipla utilizza le seguenti ipotesi nulle e alternative:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
L’ipotesi nulla afferma che tutti i coefficienti del modello sono uguali a zero. In altre parole, nessuna delle variabili predittive ha una relazione statisticamente significativa con la variabile di risposta y.
L’ipotesi alternativa afferma che non tutti i coefficienti sono contemporaneamente uguali a zero.
Gli esempi seguenti mostrano come decidere se rifiutare o meno l’ipotesi nulla nei modelli di regressione logistica semplice e di regressione logistica multipla.
Esempio 1: regressione logistica semplice
Supponiamo che un professore voglia utilizzare il numero di ore studiate per prevedere il voto dell’esame che otterranno gli studenti della sua classe. Raccoglie dati da 20 studenti e si adatta a un semplice modello di regressione logistica.
Possiamo utilizzare il seguente codice in R per adattare un semplice modello di regressione logistica:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Per determinare se esiste una relazione statisticamente significativa tra le ore studiate e il punteggio dell’esame, dobbiamo analizzare il valore chi quadrato complessivo del modello e il corrispondente valore p.
Possiamo utilizzare la seguente formula per calcolare il valore chi quadrato complessivo del modello:
X 2 = (Devianza zero – Devianza residua) / (Df zero – Df residuo)
Il valore p risulta essere 0,2717286 .
Poiché questo valore p non è inferiore a 0,05, non riusciamo a rifiutare l’ipotesi nulla. In altre parole, non esiste una relazione statisticamente significativa tra le ore studiate e i punteggi degli esami.
Esempio 2: regressione logistica multipla
Supponiamo che un professore voglia utilizzare il numero di ore studiate e il numero di esami preparatori sostenuti per prevedere il voto che gli studenti otterranno nella sua classe. Raccoglie dati da 20 studenti e si adatta a un modello di regressione logistica multipla.
Possiamo utilizzare il seguente codice in R per adattare un modello di regressione logistica multipla:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
Il valore p per la statistica chi quadrato complessiva del modello risulta essere 0,01971255 .
Poiché questo valore p è inferiore a 0,05, rifiutiamo l’ipotesi nulla. In altre parole, esiste una relazione statisticamente significativa tra la combinazione di ore studiate ed esami preparatori sostenuti e il voto finale ottenuto all’esame.
Risorse addizionali
Le seguenti esercitazioni forniscono informazioni aggiuntive sulla regressione logistica:
Introduzione alla regressione logistica
Come riportare i risultati della regressione logistica
Regressione logistica vs regressione lineare: le principali differenze