Was ist direktauswahl? (definition & #038; beispiel)


In der Statistik ist die schrittweise Auswahl ein Verfahren, mit dem wir ein Regressionsmodell aus einer Reihe von Prädiktorvariablen erstellen können, indem wir Prädiktoren schrittweise in das Modell eingeben und entfernen, bis es keinen statistisch gültigen Grund mehr für die Eingabe gibt oder mehr löschen.

Das Ziel der schrittweisen Auswahl besteht darin, ein Regressionsmodell zu erstellen, das alle Prädiktorvariablen umfasst, die statistisch signifikant mit der Antwortvariablen zusammenhängen.

Eine der am häufigsten verwendeten Methoden zur schrittweisen Auswahl ist die sogenannte Direktauswahl , die wie folgt funktioniert:

Schritt 1: Passen Sie ein reines Intercept-Regressionsmodell ohne Prädiktorvariablen an. Berechnen Sie den AIC * -Wert für das Modell.

Schritt 2: Passen Sie alle möglichen Regressionsmodelle mit einem Prädiktor an. Identifizieren Sie das Modell, das den niedrigsten AIC erzeugte und im Vergleich zum reinen Intercept-Modell auch eine statistisch signifikante Reduzierung des AIC aufwies.

Schritt 3: Passen Sie alle Regressionsmodelle an zwei mögliche Prädiktoren an. Identifizieren Sie das Modell, das den niedrigsten AIC erzeugte und im Vergleich zum Ein-Prädiktor-Modell auch eine statistisch signifikante Reduzierung des AIC aufwies.

Wiederholen Sie den Vorgang, bis die Anpassung eines Regressionsmodells mit mehr Prädiktorvariablen nicht mehr zu einer statistisch signifikanten Reduzierung des AIC führt.

* Es gibt mehrere Metriken, die Sie zur Berechnung der Anpassungsgüte eines Regressionsmodells verwenden können, einschließlich Kreuzvalidierungsvorhersagefehler, Cp, BIC, AIC oder angepasstes R2 . Im folgenden Beispiel entscheiden wir uns für die Verwendung von AIC.

Das folgende Beispiel zeigt, wie eine Direktauswahl in R durchgeführt wird.

Beispiel: Direktauswahl in R

Für dieses Beispiel verwenden wir den in R integrierten mtcars-Datensatz :

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Wir werden ein multiples lineares Regressionsmodell anpassen, das mpg (Meilen pro Gallone) als Antwortvariable und die anderen 10 Variablen im Datensatz als potenzielle Prädiktorvariablen verwendet.

Der folgende Code zeigt, wie Sie eine Auswahl Schritt für Schritt durchführen:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

So interpretieren Sie die Ergebnisse:

Zuerst passen wir das Intercept-Only-Modell an. Dieses Modell hatte einen AIC von 115,94345 .

Dann passen wir alle möglichen Modelle an einen Prädiktor an. Das Modell, das den niedrigsten AIC erzeugte und im Vergleich zum reinen Intercept-Modell auch eine statistisch signifikante Reduzierung des AIC aufwies, verwendete den wt- Prädiktor. Dieses Modell hatte einen AIC von 73,21736 .

Als nächstes passen wir alle möglichen Modelle mit zwei Prädiktoren an. Das Modell, das den niedrigsten AIC erzeugte und im Vergleich zum Einzelprädiktormodell auch eine statistisch signifikante Reduzierung des AIC aufwies, fügte den Zylinderprädiktor hinzu. Dieses Modell hatte einen AIC von 63,19800 .

Als nächstes passen wir alle möglichen Modelle an drei Prädiktoren an. Das Modell, das den niedrigsten AIC erzeugte und im Vergleich zum Modell mit zwei Prädiktoren auch eine statistisch signifikante Reduzierung des AIC aufwies, fügte den HP- Prädiktor hinzu. Dieses Modell hatte einen AIC von 62,66456 .

Als nächstes passen wir alle möglichen Modelle an vier Prädiktoren an. Es stellte sich heraus, dass keines dieser Modelle eine signifikante Reduzierung des AIC bewirkte, weshalb wir das Verfahren abbrachen.

Das endgültige Modell sieht daher wie folgt aus:

mpg = 38,75 – 3,17*Gewicht – 0,94*Zyl – 0,02*Hyp

Es stellt sich heraus, dass der Versuch, dem Modell weitere Prädiktorvariablen hinzuzufügen, nicht zu einer statistisch signifikanten Verringerung des AIC führt.

Daraus schließen wir, dass das beste Modell dasjenige mit drei Vorhersagevariablen ist: Gewicht, Zyl und PS.

Ein Hinweis zur Verwendung von AIC

Im vorherigen Beispiel haben wir uns dafür entschieden, AIC als Metrik zu verwenden, um die Passung verschiedener Regressionsmodelle zu bewerten.

AIC steht für Akaike Information Criterion und wird wie folgt berechnet:

AIC = 2K – 2 ln (L)

Gold:

  • K: Die Anzahl der Modellparameter.
  • ln (L) : Die Log-Likelihood des Modells. Dies sagt uns, wie wahrscheinlich es ist, dass das Modell auf den Daten basiert.

Sie können jedoch auch andere Metriken verwenden, um die Anpassung von Regressionsmodellen zu bewerten, einschließlich des Kreuzvalidierungsvorhersagefehlers, Cp, BIC, AIC oder des angepassten R2 .

Glücklicherweise können Sie bei den meisten Statistikprogrammen bei der direkten Auswahl angeben, welche Metrik Sie verwenden möchten.

Zusätzliche Ressourcen

Die folgenden Tutorials bieten zusätzliche Informationen zu Regressionsmodellen:

Ein Leitfaden zu Multikollinearität und VIF in der Regression
Was gilt als guter AIC-Wert?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert