Wie man null- und restabweichung interpretiert (mit beispielen)


Wann immer Sie ein allgemeines lineares Modell (wie logistische Regression, Poisson-Regression usw.) anpassen, erzeugen die meisten Statistikprogramme Werte für die Nullabweichung und die Restabweichung des Modells.

Die Nullabweichung sagt uns, wie gut die Antwortvariable von einem Modell mit nur einem Originalterm vorhergesagt werden kann.

Die Restabweichung sagt uns, wie gut die Antwortvariable durch ein Modell mit p Prädiktorvariablen vorhergesagt werden kann. Je niedriger der Wert, desto besser kann das Modell den Wert der Antwortvariablen vorhersagen.

Um festzustellen, ob ein Modell „nützlich“ ist, können wir die Chi-Quadrat-Statistik wie folgt berechnen:

X 2 = Nullabweichung – Restabweichung

mit p Freiheitsgraden.

Wir können dann den p-Wert ermitteln, der dieser Chi-Quadrat-Statistik zugeordnet ist. Je niedriger der p-Wert, desto besser kann das Modell im Vergleich zu einem Modell mit nur einem Originalterm an den Datensatz angepasst werden.

Das folgende Beispiel zeigt, wie die Null- und Restabweichung für ein logistisches Regressionsmodell in R interpretiert wird.

Beispiel: Interpretation der Null- und Restabweichung

Für dieses Beispiel verwenden wir den Standarddatensatz aus dem ISLR-Paket. Mit dem folgenden Code können wir eine Zusammenfassung des Datensatzes laden und anzeigen:

 #load dataset
data <- ISLR::Default

#view summary of dataset
summary(data)

 default student balance income     
 No:9667 No:7056 Min. : 0.0 Min. : 772  
 Yes: 333 Yes:2944 1st Qu.: 481.7 1st Qu.:21340  
                       Median: 823.6 Median: 34553  
                       Mean: 835.4 Mean: 33517  
                       3rd Qu.:1166.3 3rd Qu.:43808  
                       Max. :2654.3 Max. :73554 

Dieser Datensatz enthält die folgenden Informationen zu 10.000 Personen:

  • Standard: Gibt an, ob eine Person in Verzug geraten ist oder nicht.
  • Student: gibt an, ob eine Person Student ist oder nicht.
  • Guthaben: Durchschnittliches Guthaben einer Person.
  • Einkommen: Einkommen des Einzelnen.

Wir werden Studentenstatus, Bankguthaben und Einkommen verwenden, um ein logistisches Regressionsmodell zu erstellen, das die Wahrscheinlichkeit vorhersagt, dass eine bestimmte Person zahlungsunfähig wird:

 #fit logistic regression model
model <- glm(default~balance+student+income, family=" binomial ", data=data)

#view model summary
summary(model)

Call:
glm(formula = default ~ balance + student + income, family = "binomial", 
    data = data)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-2.4691 -0.1418 -0.0557 -0.0203 3.7383  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.087e+01 4.923e-01 -22.080 < 2e-16 ***
balance 5.737e-03 2.319e-04 24.738 < 2e-16 ***
studentYes -6.468e-01 2.363e-01 -2.738 0.00619 ** 
income 3.033e-06 8.203e-06 0.370 0.71152    
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2920.6 on 9999 degrees of freedom
Residual deviance: 1571.5 on 9996 degrees of freedom
AIC: 1579.5

Number of Fisher Scoring iterations: 8

Wir können in der Ausgabe folgende Werte für Null- und Restabweichung beobachten:

  • Nullabweichung : 2920,6 mit df = 9999
  • Restabweichung : 1571,5 mit df = 9996

Mit diesen Werten können wir die X2- Statistik des Modells berechnen:

  • X 2 = Nullabweichung – Restabweichung
  • X2 = 2910,6 – 1579,0
  • X2 = 1331,6

Es gibt p = 3 Freiheitsgrade der Prädiktorvariablen.

Wir können den Chi-Quadrat-zu-P-Wert-Rechner verwenden, um herauszufinden, dass ein X 2 -Wert von 1331,6 mit 3 Freiheitsgraden einen p-Wert von 0,000000 hat.

Da dieser p-Wert deutlich unter 0,05 liegt, würden wir daraus schließen, dass das Modell sehr nützlich ist, um die Wahrscheinlichkeit vorherzusagen, dass eine bestimmte Person zahlungsunfähig wird.

Zusätzliche Ressourcen

Die folgenden Tutorials erklären, wie man eine logistische Regression in der Praxis in R und Python durchführt:

So führen Sie eine logistische Regression in R durch
So führen Sie eine logistische Regression in Python durch

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert