Was ist rückwärtsauswahl? (definition & #038; beispiel)
In der Statistik ist die schrittweise Auswahl ein Verfahren, mit dem wir ein Regressionsmodell aus einer Reihe von Prädiktorvariablen erstellen können, indem wir Prädiktoren schrittweise in das Modell eingeben und entfernen, bis es keinen statistisch gültigen Grund mehr für die Eingabe gibt oder mehr löschen.
Das Ziel der schrittweisen Auswahl besteht darin, ein Regressionsmodell zu erstellen, das alle Prädiktorvariablen umfasst, die statistisch signifikant mit der Antwortvariablen zusammenhängen.
Eine der am häufigsten verwendeten schrittweisen Auswahlmethoden ist die sogenannte Rückwärtsauswahl , die wie folgt funktioniert:
Schritt 1: Passen Sie ein Regressionsmodell unter Verwendung aller p- Prädiktorvariablen an. Berechnen Sie den AIC * -Wert für das Modell.
Schritt 2: Entfernen Sie die Prädiktorvariable, die zur größten Reduzierung des AIC führt und auch zu einer statistisch signifikanten Reduzierung des AIC im Vergleich zum Modell mit allen p- Prädiktorvariablen führt.
Schritt 3: Entfernen Sie die Prädiktorvariable, die zur größten Reduzierung des AIC und auch zu einer statistisch signifikanten Reduzierung des AIC im Vergleich zum Modell mit p-1- Prädiktorvariablen führt.
Wiederholen Sie den Vorgang, bis das Entfernen jeglicher Prädiktorvariablen nicht mehr zu einer statistisch signifikanten Verringerung des AIC führt.
* Es gibt mehrere Metriken, die Sie zur Berechnung der Anpassungsgüte eines Regressionsmodells verwenden können, einschließlich Kreuzvalidierungsvorhersagefehler, Cp, BIC, AIC oder angepasstes R2 . Im folgenden Beispiel entscheiden wir uns für die Verwendung von AIC.
Das folgende Beispiel zeigt, wie eine Rückwärtsauswahl in R durchgeführt wird.
Beispiel: Rückwärtsauswahl in R
Für dieses Beispiel verwenden wir den in R integrierten mtcars-Datensatz :
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Wir werden ein multiples lineares Regressionsmodell anpassen, das mpg (Meilen pro Gallone) als Antwortvariable und die anderen 10 Variablen im Datensatz als potenzielle Prädiktorvariablen verwendet.
Der folgende Code zeigt, wie man einen Schritt zurück macht:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
So interpretieren Sie die Ergebnisse:
Zuerst passen wir ein Modell mithilfe der 10 Prädiktorvariablen an und berechnen den AIC des Modells.
Als nächstes haben wir die Variable ( cyl ) entfernt, die zur größten Reduzierung des AIC führte, und auch eine statistisch signifikante Reduzierung des AIC im Vergleich zum Modell mit 10 Prädiktorvariablen erhalten.
Als nächstes haben wir die Variable ( vs ) entfernt, die zur größten Reduzierung des AIC führte, und auch eine statistisch signifikante Reduzierung des AIC im Vergleich zum 9-Prädiktor-Prädiktorvariablenmodell erhalten.
Als nächstes haben wir die Variable ( Kohlenhydrate ) entfernt, die zur größten Reduzierung des AIC führte, und außerdem eine statistisch signifikante Reduzierung des AIC im Vergleich zum 8-Prädiktorvariablenmodell erhalten.
Wir wiederholten diesen Vorgang, bis wir alle Variablen entfernten, die nicht mehr zu einer statistisch signifikanten Verringerung des AIC führten.
Das endgültige Modell sieht wie folgt aus:
mpg = 9,62 – 3,92*Gewicht + 1,23*qsec + 2,94*am
Ein Hinweis zur Verwendung von AIC
Im vorherigen Beispiel haben wir uns dafür entschieden, AIC als Metrik zu verwenden, um die Passung verschiedener Regressionsmodelle zu bewerten.
AIC steht für Akaike Information Criterion und wird wie folgt berechnet:
AIC = 2K – 2 ln (L)
Gold:
- K: Die Anzahl der Modellparameter.
- ln (L) : Die Log-Likelihood des Modells. Dies sagt uns die Wahrscheinlichkeit des Modells angesichts der Daten.
Sie können jedoch auch andere Metriken verwenden, um die Anpassung von Regressionsmodellen zu bewerten, einschließlich des Kreuzvalidierungsvorhersagefehlers, Cp, BIC, AIC oder des angepassten R2 .
Glücklicherweise können Sie bei den meisten Statistikprogrammen angeben, welche Metrik Sie beim retrospektiven Screening verwenden möchten.
Zusätzliche Ressourcen
Die folgenden Tutorials bieten zusätzliche Informationen zu Regressionsmodellen:
Einführung in die Direktauswahl
Ein Leitfaden zu Multikollinearität und VIF in der Regression
Was gilt als guter AIC-Wert?