Cos'è la selezione diretta? (definizione & #038; esempio)


In statistica, la selezione graduale è una procedura che possiamo utilizzare per costruire un modello di regressione da un insieme di variabili predittive inserendo e rimuovendo i predittori passo dopo passo nel modello finché non esiste più un motivo statisticamente valido per inserirli o eliminarne altri.

L’obiettivo della selezione graduale è creare un modello di regressione che includa tutte le variabili predittive correlate in modo statisticamente significativo alla variabile di risposta .

Uno dei metodi di selezione passo-passo più comunemente utilizzati è noto come selezione diretta , che funziona come segue:

Passaggio 1: adattare un modello di regressione di sola intercetta senza variabili predittive. Calcolare il valore AIC * per il modello.

Passaggio 2: adattare tutti i possibili modelli di regressione a un predittore. Identificare il modello che ha prodotto l’AIC più basso e ha avuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello di sola intercettazione.

Passaggio 3: adattare tutti i modelli di regressione a due possibili predittori. Identificare il modello che ha prodotto l’AIC più basso e ha avuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello a un predittore.

Ripetere il processo finché l’adattamento di un modello di regressione con più variabili predittive non porta più a una riduzione statisticamente significativa dell’AIC.

* Sono disponibili diversi parametri che è possibile utilizzare per calcolare la bontà dell’adattamento di un modello di regressione, inclusi l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto. Nell’esempio seguente, scegliamo di utilizzare AIC.

L’esempio seguente mostra come eseguire una selezione diretta in R.

Esempio: selezione diretta in R

Per questo esempio, utilizzeremo il set di dati mtcars integrato in R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Adatteremo un modello di regressione lineare multipla utilizzando mpg (miglia per gallone) come variabile di risposta e le altre 10 variabili nel set di dati come potenziali variabili predittive.

Il codice seguente mostra come eseguire una selezione passo dopo passo:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

Ecco come interpretare i risultati:

Innanzitutto, adattiamo il modello di sola intercettazione. Questo modello aveva un AIC di 115.94345 .

Quindi adattiamo tutti i modelli possibili a un predittore. Il modello che ha prodotto l’AIC più basso e ha avuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello con sola intercetta utilizzava il predittore wt . Questo modello aveva un AIC di 73.21736 .

Successivamente, adattiamo tutti i modelli possibili con due predittori. Il modello che ha prodotto l’AIC più basso e ha avuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello a predittore singolo ha aggiunto il predittore cil . Questo modello aveva un AIC di 63.19800 .

Successivamente, adattiamo tutti i modelli possibili a tre predittori. Il modello che ha prodotto l’AIC più basso e ha avuto anche una riduzione statisticamente significativa dell’AIC rispetto al modello a due predittori ha aggiunto il predittore hp . Questo modello aveva un AIC di 62.66456 .

Successivamente, adattiamo tutti i modelli possibili a quattro predittori. Si è scoperto che nessuno di questi modelli produceva una riduzione significativa dell’AIC, quindi abbiamo interrotto la procedura.

Il modello finale risulta quindi essere:

mpg = 38,75 – 3,17*peso – 0,94*cil – 0,02*ip

Si scopre che il tentativo di aggiungere più variabili predittive al modello non porta a una riduzione statisticamente significativa dell’AIC.

Pertanto, concludiamo che il modello migliore è quello con tre variabili predittive: wt, cil e hp.

Una nota sull’utilizzo dell’AIC

Nell’esempio precedente, abbiamo scelto di utilizzare l’AIC come metrica per valutare l’adattamento di vari modelli di regressione.

AIC sta per Akaike Information Criterion e viene calcolato come segue:

AIC = 2K – 2 ln (L)

Oro:

  • K: il numero di parametri del modello.
  • ln (L) : la log-verosimiglianza del modello. Questo ci dice quanto è probabile che il modello sia basato sui dati.

Tuttavia, esistono altri parametri che puoi scegliere di utilizzare per valutare l’adattamento dei modelli di regressione, tra cui l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R2 corretto.

Fortunatamente, la maggior parte dei software statistici ti consente di specificare quale metrica desideri utilizzare quando selezioni direttamente.

Risorse addizionali

Le esercitazioni seguenti forniscono informazioni aggiuntive sui modelli di regressione:

Una guida alla multicollinearità e al VIF nella regressione
Qual è considerato un buon valore AIC?

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *