Cos'è la selezione all'indietro? (definizione & #038; esempio)


In statistica, la selezione graduale è una procedura che possiamo utilizzare per costruire un modello di regressione da un insieme di variabili predittive inserendo e rimuovendo i predittori passo dopo passo nel modello finché non esiste più un motivo statisticamente valido per inserirli o eliminarne altri.

L’obiettivo della selezione graduale è creare un modello di regressione che includa tutte le variabili predittive correlate in modo statisticamente significativo alla variabile di risposta .

Uno dei metodi di selezione passo-passo più comunemente utilizzati è noto come selezione all’indietro , che funziona come segue:

Passaggio 1: adattare un modello di regressione utilizzando tutte le variabili predittive p . Calcolare il valore AIC * per il modello.

Passaggio 2: rimuovere la variabile predittiva che determina la riduzione maggiore dell’AIC e comporta anche una riduzione statisticamente significativa dell’AIC rispetto al modello con tutte le variabili predittive p .

Passaggio 3: rimuovere la variabile predittiva che determina la riduzione maggiore dell’AIC e comporta anche una riduzione statisticamente significativa dell’AIC rispetto al modello con variabili predittive p-1 .

Ripetere il processo fino a quando la rimozione di eventuali variabili predittive non porta più a una riduzione statisticamente significativa dell’AIC.

* Sono disponibili diversi parametri che è possibile utilizzare per calcolare la bontà dell’adattamento di un modello di regressione, inclusi l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto. Nell’esempio seguente, scegliamo di utilizzare AIC.

L’esempio seguente mostra come eseguire una selezione all’indietro in R.

Esempio: selezione all’indietro in R

Per questo esempio, utilizzeremo il set di dati mtcars integrato in R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Adatteremo un modello di regressione lineare multipla utilizzando mpg (miglia per gallone) come variabile di risposta e le altre 10 variabili nel set di dati come potenziali variabili predittive.

Il codice seguente mostra come tornare indietro:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform backward stepwise regression
backward <- step(all, direction=' backward ', scope= formula (all), trace=0)

#view results of backward stepwise regression
backward$anova

    Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 21 147.4944 70.89774
2 - cyl 1 0.07987121 22 147.5743 68.91507
3 - vs 1 0.26852280 23 147.8428 66.97324
4 - carb 1 0.68546077 24 148.5283 65.12126
5 - gear 1 1.56497053 25 150.0933 63.45667
6 - drat 1 3.34455117 26 153.4378 62.16190
7 - available 1 6.62865369 27 160.0665 61.51530
8 - hp 1 9.21946935 28 169.2859 61.30730

#view final model
backward$coefficients

(Intercept) wt qsec am 
   9.617781 -3.916504 1.225886 2.935837

Ecco come interpretare i risultati:

Innanzitutto, adattiamo un modello utilizzando le 10 variabili predittive e calcoliamo l’AIC del modello.

Successivamente, abbiamo rimosso la variabile ( cil ) che ha comportato la maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello a 10 variabili predittive.

Successivamente, abbiamo rimosso la variabile ( vs ) che ha portato alla maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello della variabile predittrice a 9 predittori.

Successivamente, abbiamo rimosso la variabile ( carb ) che determinava la maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello con variabili a 8 predittori.

Abbiamo ripetuto questo processo fino a rimuovere qualsiasi variabile che non risultasse più in una riduzione statisticamente significativa dell’AIC.

Il modello finale risulta essere:

mpg = 9,62 – 3,92*peso + 1,23*qsec + 2,94*am

Una nota sull’utilizzo dell’AIC

Nell’esempio precedente, abbiamo scelto di utilizzare l’AIC come metrica per valutare l’adattamento di vari modelli di regressione.

AIC sta per Akaike Information Criterion e viene calcolato come segue:

AIC = 2K – 2 ln (L)

Oro:

  • K: il numero di parametri del modello.
  • ln (L) : la log-verosimiglianza del modello. Questo ci dice la probabilità del modello, dati i dati.

Tuttavia, esistono altri parametri che puoi scegliere di utilizzare per valutare l’adattamento dei modelli di regressione, tra cui l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto.

Fortunatamente, la maggior parte dei software statistici ti consente di specificare quale metrica desideri utilizzare durante lo screening retrospettivo.

Risorse addizionali

Le seguenti esercitazioni forniscono informazioni aggiuntive sui modelli di regressione:

Introduzione alla selezione diretta
Una guida alla multicollinearità e al VIF nella regressione
Qual è considerato un buon valore AIC?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *