Wat is achterwaartse selectie? (definitie & #038; voorbeeld)


In de statistiek is stapsgewijze selectie een procedure die we kunnen gebruiken om een regressiemodel te construeren uit een reeks voorspellende variabelen door voorspellers stap voor stap in het model in te voeren en te verwijderen totdat er geen statistisch geldige reden meer is om in te voeren of verwijder er meer.

Het doel van stapsgewijze selectie is het creëren van een regressiemodel dat alle voorspellende variabelen omvat die statistisch significant gerelateerd zijn aan de responsvariabele .

Een van de meest gebruikte stapsgewijze selectiemethoden staat bekend als achterwaartse selectie en werkt als volgt:

Stap 1: Pas een regressiemodel aan met behulp van alle p- voorspellingsvariabelen. Bereken de AIC * -waarde voor het model.

Stap 2: Verwijder de voorspellende variabele die resulteert in de grootste reductie in AIC en ook resulteert in een statistisch significante reductie in AIC vergeleken met het model met alle p voorspellende variabelen.

Stap 3: Verwijder de voorspellende variabele die resulteert in de grootste reductie in AIC en ook resulteert in een statistisch significante reductie in AIC vergeleken met het model met p-1 voorspellende variabelen.

Herhaal het proces totdat het verwijderen van voorspellende variabelen niet langer leidt tot een statistisch significante vermindering van de AIC.

* Er zijn verschillende meetgegevens die u kunt gebruiken om de goodness of fit van een regressiemodel te berekenen, waaronder kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R2 . In het onderstaande voorbeeld kiezen we ervoor om AIC te gebruiken.

Het volgende voorbeeld laat zien hoe u een achterwaartse selectie uitvoert in R.

Voorbeeld: achterwaartse selectie in R

Voor dit voorbeeld gebruiken we de mtcars-dataset die in R is ingebouwd:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

We passen een meervoudig lineair regressiemodel toe met mpg (mijl per gallon) als responsvariabele en de andere tien variabelen in de dataset als potentiële voorspellende variabelen.

De volgende code laat zien hoe u achteruit kunt stappen:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform backward stepwise regression
backward <- step(all, direction=' backward ', scope= formula (all), trace=0)

#view results of backward stepwise regression
backward$anova

    Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 21 147.4944 70.89774
2 - cyl 1 0.07987121 22 147.5743 68.91507
3 - vs 1 0.26852280 23 147.8428 66.97324
4 - carb 1 0.68546077 24 148.5283 65.12126
5 - gear 1 1.56497053 25 150.0933 63.45667
6 - drat 1 3.34455117 26 153.4378 62.16190
7 - available 1 6.62865369 27 160.0665 61.51530
8 - hp 1 9.21946935 28 169.2859 61.30730

#view final model
backward$coefficients

(Intercept) wt qsec am 
   9.617781 -3.916504 1.225886 2.935837

Zo interpreteert u de resultaten:

Eerst passen we een model aan met behulp van de tien voorspellende variabelen en berekenen we de AIC van het model.

Vervolgens hebben we de variabele ( cyl ) verwijderd die resulteerde in de grootste reductie in AIC en ook een statistisch significante reductie in AIC verkregen vergeleken met het model met 10 voorspellende variabelen.

Vervolgens hebben we de variabele ( vs ) verwijderd die tot de grootste reductie in AIC leidde en ook een statistisch significante reductie in AIC verkregen vergeleken met het variabelenmodel met 9 voorspellende variabelen.

Vervolgens hebben we de variabele ( carb ) verwijderd die resulteerde in de grootste reductie in AIC en ook een statistisch significante reductie in AIC verkregen vergeleken met het model met 8 voorspellende variabelen.

We herhaalden dit proces totdat we een variabele verwijderden die niet langer resulteerde in een statistisch significante vermindering van de AIC.

Het uiteindelijke model blijkt te zijn:

mpg = 9,62 – 3,92*gewicht + 1,23*qsec + 2,94*am

Een opmerking over het gebruik van AIC

In het vorige voorbeeld hebben we ervoor gekozen om AIC als metriek te gebruiken om de fit van verschillende regressiemodellen te evalueren.

AIC staat voor Akaike Information Criterion en wordt als volgt berekend:

AIC = 2K – 2 ln (L)

Goud:

  • K: Het aantal modelparameters.
  • ln (L) : De log-waarschijnlijkheid van het model. Dit vertelt ons de waarschijnlijkheid van het model, gegeven de gegevens.

Er zijn echter nog andere meetgegevens die u kunt gebruiken om de pasvorm van regressiemodellen te evalueren, waaronder kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R2 .

Gelukkig kunt u met de meeste statistische software opgeven welke maatstaf u wilt gebruiken bij retrospectieve screening.

Aanvullende bronnen

De volgende tutorials bieden aanvullende informatie over regressiemodellen:

Inleiding tot directe selectie
Een gids voor multicollineariteit en VIF in regressie
Wat wordt als een goede AIC-waarde beschouwd?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert