Cos’è la selezione graduale? (spiegazione ed esempi)


Nel campo dell’apprendimento automatico, il nostro obiettivo è creare un modello in grado di utilizzare efficacemente un insieme di variabili predittive per prevedere il valore di una variabile di risposta .

Dato un insieme di p variabili predittive totali, ci sono molti modelli che potremmo potenzialmente costruire. Un metodo che possiamo utilizzare per selezionare il modello migliore è noto come selezione del miglior sottoinsieme , che tenta di scegliere il modello migliore tra tutti i possibili modelli che potrebbero essere costruiti con l’insieme di predittori.

Purtroppo questo metodo presenta due svantaggi:

  • Questo può essere computazionalmente intenso. Per un insieme di p variabili predittive, ci sono 2 p modelli possibili. Ad esempio, con 10 variabili predittive, ci sono 2 10 = 1000 possibili modelli da considerare.
  • Poiché considera un numero molto elevato di modelli, potrebbe potenzialmente trovare un modello che funzioni bene sui dati di training ma non sui dati futuri. Ciò potrebbe portare a un overfitting .

Un’alternativa alla selezione del sottoinsieme migliore è nota come selezione graduale , che confronta un insieme di modelli molto più piccolo.

Esistono due tipi di metodi di selezione del passo: selezione del passo in avanti e selezione del passo all’indietro.

Selezione passo dopo passo

La selezione in avanti passo dopo passo funziona come segue:

1. Sia M 0 il modello nullo, che non contiene alcuna variabile predittiva.

2. Per k = 0, 2, … p-1:

  • Adatta tutti i modelli pk che aumentano i predittori in M k con una variabile predittiva aggiuntiva.
  • Scegli il migliore tra questi modelli pk e chiamalo M k+1 . Definisci “migliore” come il modello con il R 2 più alto o, equivalentemente, l’RSS più basso.

3. Selezionare un singolo modello migliore da M 0 … M p utilizzando l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R 2 corretto.

Selezione indietro passo dopo passo

La selezione del passo indietro funziona come segue:

1. Sia M p il modello completo, che contiene tutte le p variabili predittive.

2. Per k = p, p-1, … 1:

  • Adatta tutti i modelli k che contengono tutti i predittori tranne uno in Mk , per un totale di variabili predittive k-1.
  • Scegli il migliore tra questi modelli k e chiamalo M k-1 . Definisci “migliore” come il modello con il R 2 più alto o, equivalentemente, l’RSS più basso.

3. Selezionare un singolo modello migliore da M 0 … M p utilizzando l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R 2 corretto.

Criteri per la scelta del modello “migliore”.

Il passo finale della selezione graduale in avanti e all’indietro consiste nello scegliere il modello con l’errore di previsione più basso, il Cp più basso, il BIC più basso, l’AIC basso più alto o l’R 2 corretto più alto.

Ecco le formule utilizzate per calcolare ciascuna di queste metriche:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 regolato: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Oro:

  • d: il numero di predittori
  • n: osservazioni totali
  • σ̂: Stima della varianza dell’errore associata a ciascuna misura di risposta in un modello di regressione
  • RSS: somma residua dei quadrati dal modello di regressione
  • TSS: somma totale dei quadrati del modello di regressione

Vantaggi e svantaggi della selezione per fasi

La selezione graduale offre i seguenti vantaggi :

Questo metodo è più efficiente dal punto di vista computazionale rispetto alla selezione del sottoinsieme migliore. Date p variabili predittive, la selezione del miglior sottoinsieme deve corrispondere a 2 p modelli.

Al contrario, la selezione graduale dovrebbe adattarsi solo ai modelli 1+p(p+ 1)/2. Per p = 10 variabili predittive, la selezione del miglior sottoinsieme dovrebbe adattarsi a 1.000 modelli, mentre la selezione graduale dovrebbe adattarsi solo a 56 modelli.

Tuttavia, la selezione graduale presenta il seguente potenziale svantaggio:

Non è garantito trovare il miglior modello possibile tra tutti i potenziali modelli 2p .

Ad esempio, supponiamo di avere un set di dati con p = 3 predittori. Il miglior modello possibile a un predittore può contenere x 1 e il miglior modello possibile a due predittori può contenere invece x 1 e x 2 .

In questo caso, la selezione graduale in avanti non riuscirà a selezionare il miglior modello possibile a due predittori perché M 1 conterrà x 1 , quindi M 2 deve contenere anche x 1 oltre a un’altra variabile.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *