Wat is directe selectie? (definitie & #038; voorbeeld)


In de statistiek is stapsgewijze selectie een procedure die we kunnen gebruiken om een regressiemodel te construeren uit een reeks voorspellende variabelen door voorspellers stap voor stap in het model in te voeren en te verwijderen totdat er geen statistisch geldige reden meer is om in te voeren of verwijder er meer.

Het doel van stapsgewijze selectie is het creëren van een regressiemodel dat alle voorspellende variabelen omvat die statistisch significant gerelateerd zijn aan de responsvariabele .

Een van de meest gebruikte stapsgewijze selectiemethoden staat bekend als directe selectie en werkt als volgt:

Stap 1: Pas een regressiemodel toe dat alleen onderschept, zonder voorspellende variabelen. Bereken de AIC * -waarde voor het model.

Stap 2: Pas alle mogelijke regressiemodellen met één voorspeller toe. Identificeer het model dat de laagste AIC produceerde en ook een statistisch significante vermindering van de AIC had vergeleken met het model dat alleen onderschept.

Stap 3: Pas alle regressiemodellen aan twee mogelijke voorspellers aan. Identificeer het model dat de laagste AIC produceerde en ook een statistisch significante vermindering van de AIC had vergeleken met het model met één voorspeller.

Herhaal het proces totdat het aanpassen van een regressiemodel met meer voorspellende variabelen niet langer leidt tot een statistisch significante vermindering van de AIC.

* Er zijn verschillende meetgegevens die u kunt gebruiken om de goodness of fit van een regressiemodel te berekenen, waaronder kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R2 . In het onderstaande voorbeeld kiezen we ervoor om AIC te gebruiken.

Het volgende voorbeeld laat zien hoe u een directe selectie uitvoert in R.

Voorbeeld: directe selectie in R

Voor dit voorbeeld gebruiken we de mtcars-dataset die in R is ingebouwd:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

We passen een meervoudig lineair regressiemodel toe met mpg (mijl per gallon) als responsvariabele en de andere tien variabelen in de dataset als potentiële voorspellende variabelen.

De volgende code laat stap voor stap zien hoe u een selectie uitvoert:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

Zo interpreteert u de resultaten:

Ten eerste passen we het alleen-intercept-model toe. Dit model had een AIC van 115,94345 .

Vervolgens passen we alle mogelijke modellen aan een voorspeller aan. Het model dat de laagste AIC produceerde en ook een statistisch significante reductie in AIC had vergeleken met het model dat alleen onderschept, gebruikte de wt- voorspeller. Dit model had een AIC van 73,21736 .

Vervolgens passen we alle mogelijke modellen aan met twee voorspellers. Het model dat de laagste AIC produceerde en ook een statistisch significante reductie in AIC had vergeleken met het model met één voorspeller, voegde de cil- voorspeller toe. Dit model had een AIC van 63,19800 .

Vervolgens passen we alle mogelijke modellen aan drie voorspellers aan. Het model dat de laagste AIC produceerde en ook een statistisch significante reductie in AIC had vergeleken met het model met twee voorspellers, voegde de pk- voorspeller toe. Dit model had een AIC van 62,66456 .

Vervolgens passen we alle mogelijke modellen aan vier voorspellers aan. Het bleek dat geen van deze modellen een significante vermindering van de AIC opleverde, dus stopten we de procedure.

Het uiteindelijke model blijkt dus:

mpg = 38,75 – 3,17*gewicht – 0,94*cil – 0,02*hyp

Het blijkt dat pogingen om meer voorspellende variabelen aan het model toe te voegen niet leiden tot een statistisch significante vermindering van de AIC.

We concluderen dus dat het beste model het model is met drie voorspellende variabelen: wt, cil en hp.

Een opmerking over het gebruik van AIC

In het vorige voorbeeld hebben we ervoor gekozen om AIC als metriek te gebruiken om de fit van verschillende regressiemodellen te evalueren.

AIC staat voor Akaike Information Criterion en wordt als volgt berekend:

AIC = 2K – 2 ln (L)

Goud:

  • K: Het aantal modelparameters.
  • ln (L) : De log-waarschijnlijkheid van het model. Dit vertelt ons hoe waarschijnlijk het model is gebaseerd op de gegevens.

Er zijn echter nog andere meetgegevens die u kunt gebruiken om de pasvorm van regressiemodellen te evalueren, waaronder kruisvalidatie-voorspellingsfouten, Cp, BIC, AIC of aangepaste R2 .

Gelukkig kunt u met de meeste statistische software opgeven welke metriek u wilt gebruiken bij het rechtstreeks selecteren.

Aanvullende bronnen

De volgende zelfstudies bieden aanvullende informatie over regressiemodellen:

Een gids voor multicollineariteit en VIF in regressie
Wat wordt als een goede AIC-waarde beschouwd?

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert