Comprendere l'ipotesi nulla per la regressione logistica

Di Benjamin anderson Luglio 23, 2023 Guida 0 commenti

La regressione logistica è un tipo di modello di regressione che possiamo utilizzare per comprendere la relazione tra una o più variabili predittive e una variabile di risposta quando la variabile di risposta è binaria.

Se abbiamo solo una variabile predittore e una variabile di risposta, possiamo utilizzare la regressione logistica semplice , che utilizza la seguente formula per stimare la relazione tra le variabili:

log[p(X) / (1-p(X))] = β ₀ + β ₁

La formula sul lato destro dell’equazione prevede il logaritmo delle probabilità che la variabile di risposta assuma il valore 1.

La regressione logistica semplice utilizza le seguenti ipotesi nulle e alternative:

_H0 : _β1 = 0
H _A : β ₁ ≠ 0

L’ipotesi nulla prevede che il coefficiente β ₁ sia pari a zero. In altre parole, non esiste una relazione statisticamente significativa tra la variabile predittrice x e la variabile risposta y.

L’ipotesi alternativa afferma che β ₁ non è uguale a zero. In altre parole, esiste una relazione statisticamente significativa tra x e y.

Se disponiamo di più variabili predittive e di una variabile di risposta, possiamo utilizzare la regressione logistica multipla , che utilizza la seguente formula per stimare la relazione tra le variabili:

log[p(X) / (1-p(X))] = β ₀ + β ₁ x ₁ + β ₂ x ₂ + … + β _k x _k

La regressione logistica multipla utilizza le seguenti ipotesi nulle e alternative:

H ₀ : β ₁ = β ₂ = … = β _k = 0
H _A : β ₁ = β ₂ = … = β _k ≠ 0

L’ipotesi nulla afferma che tutti i coefficienti del modello sono uguali a zero. In altre parole, nessuna delle variabili predittive ha una relazione statisticamente significativa con la variabile di risposta y.

L’ipotesi alternativa afferma che non tutti i coefficienti sono contemporaneamente uguali a zero.

Gli esempi seguenti mostrano come decidere se rifiutare o meno l’ipotesi nulla nei modelli di regressione logistica semplice e di regressione logistica multipla.

Esempio 1: regressione logistica semplice

Supponiamo che un professore voglia utilizzare il numero di ore studiate per prevedere il voto dell’esame che otterranno gli studenti della sua classe. Raccoglie dati da 20 studenti e si adatta a un semplice modello di regressione logistica.

Possiamo utilizzare il seguente codice in R per adattare un semplice modello di regressione logistica:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Per determinare se esiste una relazione statisticamente significativa tra le ore studiate e il punteggio dell’esame, dobbiamo analizzare il valore chi quadrato complessivo del modello e il corrispondente valore p.

Possiamo utilizzare la seguente formula per calcolare il valore chi quadrato complessivo del modello:

X ² = (Devianza zero – Devianza residua) / (Df zero – Df residuo)

Il valore p risulta essere 0,2717286 .

Poiché questo valore p non è inferiore a 0,05, non riusciamo a rifiutare l’ipotesi nulla. In altre parole, non esiste una relazione statisticamente significativa tra le ore studiate e i punteggi degli esami.

Esempio 2: regressione logistica multipla

Supponiamo che un professore voglia utilizzare il numero di ore studiate e il numero di esami preparatori sostenuti per prevedere il voto che gli studenti otterranno nella sua classe. Raccoglie dati da 20 studenti e si adatta a un modello di regressione logistica multipla.

Possiamo utilizzare il seguente codice in R per adattare un modello di regressione logistica multipla:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

Il valore p per la statistica chi quadrato complessiva del modello risulta essere 0,01971255 .

Poiché questo valore p è inferiore a 0,05, rifiutiamo l’ipotesi nulla. In altre parole, esiste una relazione statisticamente significativa tra la combinazione di ore studiate ed esami preparatori sostenuti e il voto finale ottenuto all’esame.

Risorse addizionali

Le seguenti esercitazioni forniscono informazioni aggiuntive sulla regressione logistica:

Introduzione alla regressione logistica
Come riportare i risultati della regressione logistica
Regressione logistica vs regressione lineare: le principali differenze

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio 1: regressione logistica semplice

Esempio 2: regressione logistica multipla

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento