Die nullhypothese für die logistische regression verstehen
Die logistische Regression ist eine Art Regressionsmodell, mit dem wir die Beziehung zwischen einer oder mehreren Prädiktorvariablen und einer Antwortvariablen verstehen können, wenn die Antwortvariable binär ist.
Wenn wir nur eine Prädiktorvariable und eine Antwortvariable haben, können wir eine einfache logistische Regression verwenden, die die folgende Formel verwendet, um die Beziehung zwischen den Variablen abzuschätzen:
log[p(X) / (1-p(X))] = β 0 + β 1
Die Formel auf der rechten Seite der Gleichung sagt den Logarithmus der Wahrscheinlichkeit voraus, dass die Antwortvariable den Wert 1 annimmt.
Die einfache logistische Regression verwendet die folgenden Null- und Alternativhypothesen:
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
Die Nullhypothese besagt, dass der Koeffizient β 1 gleich Null ist. Mit anderen Worten: Es besteht keine statistisch signifikante Beziehung zwischen der Prädiktorvariablen x und der Antwortvariablen y.
Die Alternativhypothese besagt, dass β 1 ungleich Null ist. Mit anderen Worten: Es besteht eine statistisch signifikante Beziehung zwischen x und y.
Wenn wir mehrere Prädiktorvariablen und eine Antwortvariable haben, können wir die multiple logistische Regression verwenden, die die folgende Formel verwendet, um die Beziehung zwischen den Variablen zu schätzen:
log[p(X) / (1-p(X))] = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
Die multiple logistische Regression verwendet die folgenden Null- und Alternativhypothesen:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
Die Nullhypothese besagt, dass alle Koeffizienten im Modell gleich Null sind. Mit anderen Worten: Keine der Prädiktorvariablen weist eine statistisch signifikante Beziehung zur Antwortvariablen y auf.
Die Alternativhypothese besagt, dass nicht alle Koeffizienten gleichzeitig gleich Null sind.
Die folgenden Beispiele zeigen, wie Sie entscheiden, ob die Nullhypothese in einfachen logistischen Regressionsmodellen und mehreren logistischen Regressionsmodellen abgelehnt werden soll oder nicht.
Beispiel 1: einfache logistische Regression
Angenommen, ein Professor möchte die Anzahl der gelernten Stunden nutzen, um die Prüfungsnote vorherzusagen, die die Studenten seiner Klasse erreichen werden. Es sammelt Daten von 20 Studenten und passt ein einfaches logistisches Regressionsmodell an.
Wir können den folgenden Code in R verwenden, um ein einfaches logistisches Regressionsmodell anzupassen:
#createdata df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3)) #fit simple logistic regression model model <- glm(result~hours, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.8244 -1.1738 0.7701 0.9460 1.2236 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.4987 0.9490 -0.526 0.599 hours 0.3906 0.3714 1.052 0.293 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 25,712 on 18 degrees of freedom AIC: 29,712 Number of Fisher Scoring iterations: 4 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-25.712, 19-18) [1] 0.2717286
Um festzustellen, ob ein statistisch signifikanter Zusammenhang zwischen den Lernstunden und dem Prüfungsergebnis besteht, müssen wir den Gesamt-Chi-Quadrat-Wert des Modells und den entsprechenden p-Wert analysieren.
Wir können die folgende Formel verwenden, um den Gesamt-Chi-Quadrat-Wert des Modells zu berechnen:
X 2 = (Null-Abweichung – Restabweichung) / (Null-Df – Rest-Df)
Der p-Wert beträgt 0,2717286 .
Da dieser p-Wert nicht kleiner als 0,05 ist, können wir die Nullhypothese nicht ablehnen. Mit anderen Worten: Es gibt keinen statistisch signifikanten Zusammenhang zwischen den Lernstunden und den Prüfungsergebnissen.
Beispiel 2: Multiple logistische Regression
Angenommen, ein Professor möchte die Anzahl der Lernstunden und die Anzahl der abgelegten Vorbereitungsprüfungen nutzen, um die Note vorherzusagen, die die Schüler in seiner Klasse erhalten werden. Es sammelt Daten von 20 Studenten und passt ein multiples logistisches Regressionsmodell an.
Wir können den folgenden Code in R verwenden, um ein multiples logistisches Regressionsmodell anzupassen:
#create data df <- data. frame (result=c(0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1), hours=c(1, 5, 5, 1, 2, 1, 3, 2, 2, 1, 2, 1, 3, 4, 4, 2, 1, 1, 4, 3), exams=c(1, 2, 2, 1, 2, 1, 1, 3, 2, 4, 3, 2, 2, 4, 4, 5, 4, 4, 3, 5)) #fit simple logistic regression model model <- glm(result~hours+exams, family=' binomial ', data=df) #view summary of model fit summary(model) Call: glm(formula = result ~ hours + exams, family = "binomial", data = df) Deviance Residuals: Min 1Q Median 3Q Max -1.5061 -0.6395 0.3347 0.6300 1.7014 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.4873 1.8557 -1.879 0.0602 . hours 0.3844 0.4145 0.927 0.3538 exams 1.1549 0.5493 2.103 0.0355 * --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 26,920 on 19 degrees of freedom Residual deviance: 19,067 on 17 degrees of freedom AIC: 25,067 Number of Fisher Scoring iterations: 5 #calculate p-value of overall Chi-Square statistic 1-pchisq(26.920-19.067, 19-17) [1] 0.01971255
Der p-Wert für die gesamte Chi-Quadrat-Statistik des Modells beträgt 0,01971255 .
Da dieser p-Wert kleiner als 0,05 ist, lehnen wir die Nullhypothese ab. Mit anderen Worten: Es besteht ein statistisch signifikanter Zusammenhang zwischen der Kombination aus Lernstunden und absolvierten Vorbereitungsprüfungen und der Abschlussnote der Prüfung.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zur logistischen Regression:
Einführung in die logistische Regression
So melden Sie Ergebnisse der logistischen Regression
Logistische Regression vs. lineare Regression: die Hauptunterschiede