Wie man null- und restabweichung interpretiert (mit beispielen)
Wann immer Sie ein allgemeines lineares Modell (wie logistische Regression, Poisson-Regression usw.) anpassen, erzeugen die meisten Statistikprogramme Werte für die Nullabweichung und die Restabweichung des Modells.
Die Nullabweichung sagt uns, wie gut die Antwortvariable von einem Modell mit nur einem Originalterm vorhergesagt werden kann.
Die Restabweichung sagt uns, wie gut die Antwortvariable durch ein Modell mit p Prädiktorvariablen vorhergesagt werden kann. Je niedriger der Wert, desto besser kann das Modell den Wert der Antwortvariablen vorhersagen.
Um festzustellen, ob ein Modell „nützlich“ ist, können wir die Chi-Quadrat-Statistik wie folgt berechnen:
X 2 = Nullabweichung – Restabweichung
mit p Freiheitsgraden.
Wir können dann den p-Wert ermitteln, der dieser Chi-Quadrat-Statistik zugeordnet ist. Je niedriger der p-Wert, desto besser kann das Modell im Vergleich zu einem Modell mit nur einem Originalterm an den Datensatz angepasst werden.
Das folgende Beispiel zeigt, wie die Null- und Restabweichung für ein logistisches Regressionsmodell in R interpretiert wird.
Beispiel: Interpretation der Null- und Restabweichung
Für dieses Beispiel verwenden wir den Standarddatensatz aus dem ISLR-Paket. Mit dem folgenden Code können wir eine Zusammenfassung des Datensatzes laden und anzeigen:
#load dataset data <- ISLR::Default #view summary of dataset summary(data) default student balance income No:9667 No:7056 Min. : 0.0 Min. : 772 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340 Median: 823.6 Median: 34553 Mean: 835.4 Mean: 33517 3rd Qu.:1166.3 3rd Qu.:43808 Max. :2654.3 Max. :73554
Dieser Datensatz enthält die folgenden Informationen zu 10.000 Personen:
- Standard: Gibt an, ob eine Person in Verzug geraten ist oder nicht.
- Student: gibt an, ob eine Person Student ist oder nicht.
- Guthaben: Durchschnittliches Guthaben einer Person.
- Einkommen: Einkommen des Einzelnen.
Wir werden Studentenstatus, Bankguthaben und Einkommen verwenden, um ein logistisches Regressionsmodell zu erstellen, das die Wahrscheinlichkeit vorhersagt, dass eine bestimmte Person zahlungsunfähig wird:
#fit logistic regression model model <- glm(default~balance+student+income, family=" binomial ", data=data) #view model summary summary(model) Call: glm(formula = default ~ balance + student + income, family = "binomial", data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.4691 -0.1418 -0.0557 -0.0203 3.7383 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 *** balance 5.737e-03 2.319e-04 24.738 < 2e-16 *** studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** income 3.033e-06 8.203e-06 0.370 0.71152 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2920.6 on 9999 degrees of freedom Residual deviance: 1571.5 on 9996 degrees of freedom AIC: 1579.5 Number of Fisher Scoring iterations: 8
Wir können in der Ausgabe folgende Werte für Null- und Restabweichung beobachten:
- Nullabweichung : 2920,6 mit df = 9999
- Restabweichung : 1571,5 mit df = 9996
Mit diesen Werten können wir die X2- Statistik des Modells berechnen:
- X 2 = Nullabweichung – Restabweichung
- X2 = 2910,6 – 1579,0
- X2 = 1331,6
Es gibt p = 3 Freiheitsgrade der Prädiktorvariablen.
Wir können den Chi-Quadrat-zu-P-Wert-Rechner verwenden, um herauszufinden, dass ein X 2 -Wert von 1331,6 mit 3 Freiheitsgraden einen p-Wert von 0,000000 hat.
Da dieser p-Wert deutlich unter 0,05 liegt, würden wir daraus schließen, dass das Modell sehr nützlich ist, um die Wahrscheinlichkeit vorherzusagen, dass eine bestimmte Person zahlungsunfähig wird.
Zusätzliche Ressourcen
Die folgenden Tutorials erklären, wie man eine logistische Regression in der Praxis in R und Python durchführt:
So führen Sie eine logistische Regression in R durch
So führen Sie eine logistische Regression in Python durch