A: so berechnen sie quotenverhältnisse in einem logistischen regressionsmodell
Die logistische Regression ist eine Methode, mit der wir ein Regressionsmodell anpassen können, wenn die Antwortvariable binär ist.
Wenn Sie ein logistisches Regressionsmodell in R anpassen, stellen die Koeffizienten in der Modellzusammenfassung die durchschnittliche Änderung der logarithmischen Wahrscheinlichkeiten der Antwortvariablen dar, die mit einem Anstieg um eine Einheit bei jeder Prädiktorvariablen verbunden ist.
Allerdings möchten wir stattdessen oft das Quotenverhältnis für die Prädiktorvariablen im Modell berechnen.
Um die Quotenverhältnisse für jede Prädiktorvariable im Modell schnell zu berechnen, können Sie die folgende Syntax verwenden:
exp(coef(model))
Sie können auch ein 95 %-Konfidenzintervall für jedes Quotenverhältnis berechnen, indem Sie die folgende Syntax verwenden:
exp(cbind(Odds_Ratio = coef(model), confint(model)))
Das folgende Beispiel zeigt, wie diese Syntax zum Berechnen und Interpretieren von Quotenverhältnissen für ein logistisches Regressionsmodell in R verwendet wird.
Beispiel: Berechnung der Quotenverhältnisse in einem logistischen Regressionsmodell in R
Für dieses Beispiel verwenden wir den Standarddatensatz aus dem ISLR- Paket in R.
Mit dem folgenden Code können wir eine Zusammenfassung des Datensatzes laden und anzeigen:
library (ISLR) #view first five rows of Default dataset head(Default) default student balance income 1 No No 729.5265 44361.625 2 No Yes 817.1804 12106.135 3 No No 1073.5492 31767.139 4 No No 529.2506 35704.494 5 No No 785.6559 38463.496 6 No Yes 919.5885 7491.559
Dieser Datensatz enthält die folgenden Informationen zu 10.000 Personen:
- Standard: Gibt an, ob eine Person in Verzug geraten ist oder nicht.
- Student: gibt an, ob eine Person Student ist oder nicht.
- Guthaben: Durchschnittliches Guthaben einer Person.
- Einkommen: Einkommen des Einzelnen.
Wir werden Studentenstatus, Bankguthaben und Einkommen verwenden, um ein logistisches Regressionsmodell zu erstellen, das die Wahrscheinlichkeit vorhersagt, dass eine bestimmte Person zahlungsunfähig wird.
Wir können die glm- Funktion verwenden und „family=’binomial’“ angeben, damit R ein logistisches Regressionsmodell an den Datensatz anpasst:
#fit logistic regression model model <- glm(default~student+balance+income, family=' binomial ', data=Default) #disable scientific notation for model summary options(scipen=999) #view model summary summary(model) Call: glm(formula = default ~ student + balance + income, family = "binomial", data = train) Deviance Residuals: Min 1Q Median 3Q Max -2.5586 -0.1353 -0.0519 -0.0177 3.7973 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -11.478101194 0.623409555 -18.412 <0.0000000000000002 *** studentYes -0.493292438 0.285735949 -1.726 0.0843 . balance 0.005988059 0.000293765 20.384 <0.0000000000000002 *** income 0.000007857 0.000009965 0.788 0.4304 --- Significant. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2021.1 on 6963 degrees of freedom Residual deviance: 1065.4 on 6960 degrees of freedom AIC: 1073.4 Number of Fisher Scoring iterations: 8
Die Koeffizienten im Ergebnis geben die durchschnittliche Änderung der logarithmischen Ausfallwahrscheinlichkeit an.
Beispielsweise ist eine Erhöhung des Saldos um eine Einheit mit einem durchschnittlichen Anstieg der logarithmischen Ausfallwahrscheinlichkeit um 0,005988 verbunden.
Um stattdessen das Quotenverhältnis für jede Prädiktorvariable zu berechnen, können wir die folgende Syntax verwenden:
#calculate odds ratio for each predictor variable
exp(coef(model))
(Intercept) studentYes balance income
0.00001903854 0.52373166965 1.00575299051 1.00000303345
Wir können auch jedes Quotenverhältnis sowie ein 95 %-Konfidenzintervall für jedes Quotenverhältnis berechnen:
#calculate odds ratio and 95% confidence interval for each predictor variable
exp(cbind(Odds_Ratio = coef(model), confint(model)))
Odds_Ratio 2.5% 97.5%
(Intercept) 0.00001903854 0.000007074481 0.0000487808
studentYes 0.52373166965 0.329882707270 0.8334223982
balance 1.00575299051 1.005308940686 1.0062238757
income 1.00000303345 0.999986952969 1.0000191246
Das Quotenverhältnis für jeden Koeffizienten stellt den durchschnittlichen Anstieg der Ausfallwahrscheinlichkeiten einer Person dar, vorausgesetzt, dass alle anderen Prädiktorvariablen konstant bleiben.
Beispielsweise hat der Saldo der Prädiktorvariablen ein Quotenverhältnis von 1,0057 .
Dies bedeutet, dass für jeden zusätzlichen Dollar auf dem Guthaben einer Person die Wahrscheinlichkeit, dass sie mit ihrem Kredit in Verzug gerät, um den Faktor 1,0057 steigt, vorausgesetzt, dass der Studentenstatus und das Einkommen konstant bleiben .
Wir können die Quotenverhältnisse für die anderen Prädiktorvariablen auf die gleiche Weise interpretieren.
Zusätzliche Ressourcen
Die folgenden Tutorials erklären, wie Sie andere häufige Aufgaben in R ausführen:
So verwenden Sie Predict() mit dem logistischen Regressionsmodell in R
So interpretieren Sie Pr(>|z|) in der logistischen Regressionsausgabe in R
So zeichnen Sie eine logistische Regressionskurve in R