Cos'è la selezione all'indietro? (definizione & #038; esempio)
In statistica, la selezione graduale è una procedura che possiamo utilizzare per costruire un modello di regressione da un insieme di variabili predittive inserendo e rimuovendo i predittori passo dopo passo nel modello finché non esiste più un motivo statisticamente valido per inserirli o eliminarne altri.
L’obiettivo della selezione graduale è creare un modello di regressione che includa tutte le variabili predittive correlate in modo statisticamente significativo alla variabile di risposta .
Uno dei metodi di selezione passo-passo più comunemente utilizzati è noto come selezione all’indietro , che funziona come segue:
Passaggio 1: adattare un modello di regressione utilizzando tutte le variabili predittive p . Calcolare il valore AIC * per il modello.
Passaggio 2: rimuovere la variabile predittiva che determina la riduzione maggiore dell’AIC e comporta anche una riduzione statisticamente significativa dell’AIC rispetto al modello con tutte le variabili predittive p .
Passaggio 3: rimuovere la variabile predittiva che determina la riduzione maggiore dell’AIC e comporta anche una riduzione statisticamente significativa dell’AIC rispetto al modello con variabili predittive p-1 .
Ripetere il processo fino a quando la rimozione di eventuali variabili predittive non porta più a una riduzione statisticamente significativa dell’AIC.
* Sono disponibili diversi parametri che è possibile utilizzare per calcolare la bontà dell’adattamento di un modello di regressione, inclusi l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto. Nell’esempio seguente, scegliamo di utilizzare AIC.
L’esempio seguente mostra come eseguire una selezione all’indietro in R.
Esempio: selezione all’indietro in R
Per questo esempio, utilizzeremo il set di dati mtcars integrato in R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Adatteremo un modello di regressione lineare multipla utilizzando mpg (miglia per gallone) come variabile di risposta e le altre 10 variabili nel set di dati come potenziali variabili predittive.
Il codice seguente mostra come tornare indietro:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Ecco come interpretare i risultati:
Innanzitutto, adattiamo un modello utilizzando le 10 variabili predittive e calcoliamo l’AIC del modello.
Successivamente, abbiamo rimosso la variabile ( cil ) che ha comportato la maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello a 10 variabili predittive.
Successivamente, abbiamo rimosso la variabile ( vs ) che ha portato alla maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello della variabile predittrice a 9 predittori.
Successivamente, abbiamo rimosso la variabile ( carb ) che determinava la maggiore riduzione dell’AIC e ottenuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello con variabili a 8 predittori.
Abbiamo ripetuto questo processo fino a rimuovere qualsiasi variabile che non risultasse più in una riduzione statisticamente significativa dell’AIC.
Il modello finale risulta essere:
mpg = 9,62 – 3,92*peso + 1,23*qsec + 2,94*am
Una nota sull’utilizzo dell’AIC
Nell’esempio precedente, abbiamo scelto di utilizzare l’AIC come metrica per valutare l’adattamento di vari modelli di regressione.
AIC sta per Akaike Information Criterion e viene calcolato come segue:
AIC = 2K – 2 ln (L)
Oro:
- K: il numero di parametri del modello.
- ln (L) : la log-verosimiglianza del modello. Questo ci dice la probabilità del modello, dati i dati.
Tuttavia, esistono altri parametri che puoi scegliere di utilizzare per valutare l’adattamento dei modelli di regressione, tra cui l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto.
Fortunatamente, la maggior parte dei software statistici ti consente di specificare quale metrica desideri utilizzare durante lo screening retrospettivo.
Risorse addizionali
Le seguenti esercitazioni forniscono informazioni aggiuntive sui modelli di regressione:
Introduzione alla selezione diretta
Una guida alla multicollinearità e al VIF nella regressione
Qual è considerato un buon valore AIC?