De nulhypothese voor logistieke regressie begrijpen


Logistische regressie is een type regressiemodel dat we kunnen gebruiken om de relatie tussen een of meer voorspellende variabelen en eenresponsvariabele te begrijpen wanneer de responsvariabele binair is.

Als we slechts één voorspellende variabele en één responsvariabele hebben, kunnen we eenvoudige logistische regressie gebruiken, waarbij de volgende formule wordt gebruikt om de relatie tussen de variabelen te schatten:

log[p(X) / (1-p(X))] = β 0 + β 1

De formule aan de rechterkant van de vergelijking voorspelt de logaritme van de kans dat de responsvariabele de waarde 1 aanneemt.

Eenvoudige logistische regressie maakt gebruik van de volgende nul- en alternatieve hypothesen:

  • H0 : β1 = 0
  • HA : β 1 ≠ 0

De nulhypothese stelt dat de coëfficiënt β 1 gelijk is aan nul. Met andere woorden: er is geen statistisch significante relatie tussen de voorspellende variabele x en de responsvariabele y.

De alternatieve hypothese stelt dat β 1 niet gelijk is aan nul. Met andere woorden: er is een statistisch significante relatie tussen x en y.

Als we meerdere voorspellende variabelen en een responsvariabele hebben, kunnen we meerdere logistische regressie gebruiken, waarbij de volgende formule wordt gebruikt om de relatie tussen de variabelen te schatten:

log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k

Bij meervoudige logistische regressie worden de volgende nul- en alternatieve hypothesen gebruikt:

  • H 0 : β 1 = β 2 = … = β k = 0
  • H A : β 1 = β 2 = … = β k ≠ 0

De nulhypothese stelt dat alle coëfficiënten in het model gelijk zijn aan nul. Met andere woorden: geen van de voorspellende variabelen heeft een statistisch significante relatie met de responsvariabele y.

De alternatieve hypothese stelt dat niet alle coëfficiënten tegelijkertijd gelijk zijn aan nul.

De volgende voorbeelden laten zien hoe u kunt beslissen of u de nulhypothese wel of niet verwerpt in eenvoudige logistieke regressie- en meervoudige logistische regressiemodellen.

Voorbeeld 1: eenvoudige logistische regressie

Stel dat een hoogleraar het aantal gestudeerde uren wil gebruiken om te voorspellen welk examencijfer studenten in zijn klas zullen behalen. Het verzamelt gegevens van twintig studenten en past in een eenvoudig logistisch regressiemodel.

We kunnen de volgende code in R gebruiken om een eenvoudig logistisch regressiemodel te passen:

 #createdata
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3))

#fit simple logistic regression model
model <- glm(result~hours, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.8244 -1.1738 0.7701 0.9460 1.2236  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.4987 0.9490 -0.526 0.599
hours 0.3906 0.3714 1.052 0.293

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 25,712 on 18 degrees of freedom
AIC: 29,712

Number of Fisher Scoring iterations: 4

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-25.712, 19-18)

[1] 0.2717286

Om te bepalen of er een statistisch significante relatie bestaat tussen het aantal gestudeerde uren en de examenscore, moeten we de algehele chikwadraatwaarde van het model en de bijbehorende p-waarde analyseren.

We kunnen de volgende formule gebruiken om de totale chikwadraatwaarde van het model te berekenen:

X 2 = (nul afwijking – resterende afwijking) / (nul Df – resterende Df)

De p-waarde blijkt 0,2717286 te zijn.

Omdat deze p-waarde niet kleiner is dan 0,05, slagen we er niet in de nulhypothese te verwerpen. Met andere woorden: er is geen statistisch significante relatie tussen het aantal gestudeerde uren en de examenscores.

Voorbeeld 2: Meervoudige logistische regressie

Stel dat een professor het aantal gestudeerde uren en het aantal afgelegde voorbereidende examens wil gebruiken om te voorspellen welk cijfer studenten in zijn klas zullen behalen. Het verzamelt gegevens van 20 studenten en past in een meervoudig logistisch regressiemodel.

We kunnen de volgende code in R gebruiken om een meervoudig logistisch regressiemodel te passen:

 #create data
df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1),
                 hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3),
                 exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5))

#fit simple logistic regression model
model <- glm(result~hours+exams, family=' binomial ', data=df)

#view summary of model fit
summary(model)

Call:
glm(formula = result ~ hours + exams, family = "binomial", data = df)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.5061 -0.6395 0.3347 0.6300 1.7014  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) -3.4873 1.8557 -1.879 0.0602 .
hours 0.3844 0.4145 0.927 0.3538  
exams 1.1549 0.5493 2.103 0.0355 *
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 26,920 on 19 degrees of freedom
Residual deviance: 19,067 on 17 degrees of freedom
AIC: 25,067

Number of Fisher Scoring iterations: 5

#calculate p-value of overall Chi-Square statistic
1-pchisq(26.920-19.067, 19-17)

[1] 0.01971255

De p-waarde voor de algehele chikwadraatstatistiek van het model blijkt 0,01971255 te zijn.

Omdat deze p-waarde kleiner is dan 0,05, verwerpen we de nulhypothese. Er bestaat met andere woorden een statistisch significante relatie tussen de combinatie van gestudeerde uren en afgelegde voorbereidende examens en het op het examen behaalde eindcijfer.

Aanvullende bronnen

De volgende tutorials bieden aanvullende informatie over logistische regressie:

Inleiding tot logistieke regressie
Hoe logistieke regressieresultaten te rapporteren
Logistische regressie versus lineaire regressie: de belangrijkste verschillen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert