So interpretieren sie die glm-ausgabe in r (mit beispiel)


Die Funktion glm() in R kann zur Anpassung verallgemeinerter linearer Modelle verwendet werden.

Diese Funktion verwendet die folgende Syntax:

glm(Formel, Familie=Gaußsche Funktion, Daten, …)

Gold:

  • Formel: Die lineare Modellformel (z. B. y ~ x1 + x2)
  • Familie: Die statistische Familie, die zur Anpassung des Modells verwendet werden soll. Der Standardwert ist Gauß, aber andere Optionen umfassen unter anderem Binomial, Gamma und Poisson.
  • Daten: Der Name des Datenblocks, der die Daten enthält

In der Praxis wird diese Funktion am häufigsten zur Anpassung logistischer Regressionsmodelle durch Angabe der „binomialen“ Familie verwendet.

Das folgende Beispiel zeigt, wie die glm-Ausgabe in R für ein logistisches Regressionsmodell interpretiert wird.

Beispiel: So interpretieren Sie die glm-Ausgabe in R

Für dieses Beispiel verwenden wir den in R integrierten mtcars- Datensatz:

 #view first six rows of mtcars dataset
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Wir werden die Variablen disp und hp verwenden, um die Wahrscheinlichkeit vorherzusagen, dass ein bestimmtes Auto den Wert 1 für die Variable am annimmt.

Der folgende Code zeigt, wie die glm()- Funktion verwendet wird, um dieses logistische Regressionsmodell anzupassen:

 #fit logistic regression model
model <- glm(am ~ disp + hp, data=mtcars, family=binomial)

#view model summary
summary(model)

Call:
glm(formula = am ~ disp + hp, family = binomial, data = mtcars)

Deviance Residuals: 
    Min 1Q Median 3Q Max  
-1.9665 -0.3090 -0.0017 0.3934 1.3682  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)  
(Intercept) 1.40342 1.36757 1.026 0.3048  
available -0.09518 0.04800 -1.983 0.0474 *
hp 0.12170 0.06777 1.796 0.0725 .
---
Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 43,230 on 31 degrees of freedom
Residual deviance: 16,713 on 29 degrees of freedom
AIC: 22,713

Number of Fisher Scoring iterations: 8

So interpretieren Sie jedes Element des Ergebnisses:

Koeffizienten und P-Werte

Die Koeffizientenschätzung im Ergebnis gibt die durchschnittliche Änderung der logarithmischen Wahrscheinlichkeit der Antwortvariablen an, die mit einem Anstieg um eine Einheit in jeder Prädiktorvariablen verbunden ist.

Beispielsweise ist ein Anstieg der Prädiktorvariablen disp um eine Einheit mit einer durchschnittlichen Änderung von -0,09518 in der logarithmischen Wahrscheinlichkeit verbunden, dass die Antwortvariable am den Wert 1 annimmt. Dies bedeutet, dass höhere Werte von disp mit niedrigeren Werten verbunden sind Wahrscheinlichkeit. der Variablen nehme den Wert 1 an.

Der Standardfehler gibt uns eine Vorstellung von der Variabilität, die mit der Koeffizientenschätzung verbunden ist. Anschließend dividieren wir die Koeffizientenschätzung durch den Standardfehler, um den az-Wert zu erhalten.

Beispielsweise wird der Z-Wert für die Prädiktorvariable disp als -.09518 / .048 = -1.983 berechnet.

Der p-Wert Pr(>|z|) sagt uns die Wahrscheinlichkeit, die mit einem bestimmten z-Wert verbunden ist. Dies sagt uns im Wesentlichen, wie gut jede Prädiktorvariable den Wert der Antwortvariablen im Modell vorhersagen kann.

Beispielsweise beträgt der p-Wert, der dem z-Wert für die Variable disp zugeordnet ist, 0,0474. Da dieser Wert kleiner als 0,05 ist, würden wir sagen, dass disp eine statistisch signifikante Prädiktorvariable im Modell ist.

Abhängig von Ihren Präferenzen können Sie ein Signifikanzniveau von 0,01, 0,05 oder 0,10 verwenden, um zu bestimmen, ob jede Prädiktorvariable statistisch signifikant ist oder nicht.

Null- und Restabweichung

Die Nullabweichung in der Ausgabe sagt uns, wie gut die Antwortvariable von einem Modell mit nur einem Originalterm vorhergesagt werden kann.

Die Restabweichung sagt uns, wie gut die Antwortvariable durch das spezifische Modell, das wir mit p Prädiktorvariablen anpassen, vorhergesagt werden kann. Je niedriger der Wert, desto besser kann das Modell den Wert der Antwortvariablen vorhersagen.

Um festzustellen, ob ein Modell „nützlich“ ist, können wir die Chi-Quadrat-Statistik wie folgt berechnen:

X 2 = Nullabweichung – Restabweichung

mit p Freiheitsgraden.

Wir können dann den p-Wert ermitteln, der dieser Chi-Quadrat-Statistik zugeordnet ist. Je niedriger der p-Wert, desto besser kann das Modell im Vergleich zu einem Modell mit nur einem Originalterm an den Datensatz angepasst werden.

Beispielsweise können wir in unserem Regressionsmodell die folgenden Werte in der Ausgabe für Null und Restabweichung beobachten:

  • Nullabweichung : 43,23 mit df = 31
  • Restabweichung : 16,713 mit df = 29

Mit diesen Werten können wir die X2- Statistik des Modells berechnen:

  • X 2 = Nullabweichung – Restabweichung
  • X2 = 43,23 – 16,713
  • X2 = 26.517

Es gibt p = 2 Freiheitsgrade der Prädiktorvariablen.

Wir können den Chi-Quadrat-zu-P-Wert-Rechner verwenden, um herauszufinden, dass ein X 2 -Wert von 26,517 mit 2 Freiheitsgraden einen p-Wert von 0,000002 hat.

Da dieser p-Wert viel niedriger als 0,05 ist, würden wir daraus schließen, dass das Modell sehr nützlich ist.

AIC

Das Akaike Information Criterion ( AIC ) ist ein Maß zum Vergleich der Passung verschiedener Regressionsmodelle. Je niedriger der Wert, desto besser kann das Regressionsmodell die Daten anpassen.

Es wird wie folgt berechnet:

AIC = 2K – 2 ln (L)

Gold:

  • K: Die Anzahl der Modellparameter.
  • ln (L) : Die Log-Likelihood des Modells. Dies sagt uns, wie wahrscheinlich es ist, dass das Modell auf den Daten basiert.

Der tatsächliche Wert von AIC ist bedeutungslos.

Wenn Sie jedoch mehrere Regressionsmodelle anpassen, können Sie den AIC-Wert jedes Modells vergleichen. Das Modell mit dem niedrigsten AIC bietet die beste Passform.

Verwandt: Was gilt als guter AIC-Wert?

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zur Verwendung der glm() -Funktion in R:

Der Unterschied zwischen glm und lm in R
So verwenden Sie die Vorhersagefunktion mit glm in R

Die folgenden Tutorials erklären, wie Sie mit häufigen Fehlern bei der Verwendung der glm() -Funktion umgehen:

Umgang mit R Warnung: glm.fit: Algorithmus konnte nicht konvergieren
Vorgehensweise: glm.fit: Numerisch angepasste Wahrscheinlichkeiten 0 oder 1 sind aufgetreten

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert