Cos’è la selezione graduale? (spiegazione ed esempi)
Nel campo dell’apprendimento automatico, il nostro obiettivo è creare un modello in grado di utilizzare efficacemente un insieme di variabili predittive per prevedere il valore di una variabile di risposta .
Dato un insieme di p variabili predittive totali, ci sono molti modelli che potremmo potenzialmente costruire. Un metodo che possiamo utilizzare per selezionare il modello migliore è noto come selezione del miglior sottoinsieme , che tenta di scegliere il modello migliore tra tutti i possibili modelli che potrebbero essere costruiti con l’insieme di predittori.
Purtroppo questo metodo presenta due svantaggi:
- Questo può essere computazionalmente intenso. Per un insieme di p variabili predittive, ci sono 2 p modelli possibili. Ad esempio, con 10 variabili predittive, ci sono 2 10 = 1000 possibili modelli da considerare.
- Poiché considera un numero molto elevato di modelli, potrebbe potenzialmente trovare un modello che funzioni bene sui dati di training ma non sui dati futuri. Ciò potrebbe portare a un overfitting .
Un’alternativa alla selezione del sottoinsieme migliore è nota come selezione graduale , che confronta un insieme di modelli molto più piccolo.
Esistono due tipi di metodi di selezione del passo: selezione del passo in avanti e selezione del passo all’indietro.
Selezione passo dopo passo
La selezione in avanti passo dopo passo funziona come segue:
1. Sia M 0 il modello nullo, che non contiene alcuna variabile predittiva.
2. Per k = 0, 2, … p-1:
- Adatta tutti i modelli pk che aumentano i predittori in M k con una variabile predittiva aggiuntiva.
- Scegli il migliore tra questi modelli pk e chiamalo M k+1 . Definisci “migliore” come il modello con il R 2 più alto o, equivalentemente, l’RSS più basso.
3. Selezionare un singolo modello migliore da M 0 … M p utilizzando l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R 2 corretto.
Selezione indietro passo dopo passo
La selezione del passo indietro funziona come segue:
1. Sia M p il modello completo, che contiene tutte le p variabili predittive.
2. Per k = p, p-1, … 1:
- Adatta tutti i modelli k che contengono tutti i predittori tranne uno in Mk , per un totale di variabili predittive k-1.
- Scegli il migliore tra questi modelli k e chiamalo M k-1 . Definisci “migliore” come il modello con il R 2 più alto o, equivalentemente, l’RSS più basso.
3. Selezionare un singolo modello migliore da M 0 … M p utilizzando l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R 2 corretto.
Criteri per la scelta del modello “migliore”.
Il passo finale della selezione graduale in avanti e all’indietro consiste nello scegliere il modello con l’errore di previsione più basso, il Cp più basso, il BIC più basso, l’AIC basso più alto o l’R 2 corretto più alto.
Ecco le formule utilizzate per calcolare ciascuna di queste metriche:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 regolato: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Oro:
- d: il numero di predittori
- n: osservazioni totali
- σ̂: Stima della varianza dell’errore associata a ciascuna misura di risposta in un modello di regressione
- RSS: somma residua dei quadrati dal modello di regressione
- TSS: somma totale dei quadrati del modello di regressione
Vantaggi e svantaggi della selezione per fasi
La selezione graduale offre i seguenti vantaggi :
Questo metodo è più efficiente dal punto di vista computazionale rispetto alla selezione del sottoinsieme migliore. Date p variabili predittive, la selezione del miglior sottoinsieme deve corrispondere a 2 p modelli.
Al contrario, la selezione graduale dovrebbe adattarsi solo ai modelli 1+p(p+ 1)/2. Per p = 10 variabili predittive, la selezione del miglior sottoinsieme dovrebbe adattarsi a 1.000 modelli, mentre la selezione graduale dovrebbe adattarsi solo a 56 modelli.
Tuttavia, la selezione graduale presenta il seguente potenziale svantaggio:
Non è garantito trovare il miglior modello possibile tra tutti i potenziali modelli 2p .
Ad esempio, supponiamo di avere un set di dati con p = 3 predittori. Il miglior modello possibile a un predittore può contenere x 1 e il miglior modello possibile a due predittori può contenere invece x 1 e x 2 .
In questo caso, la selezione graduale in avanti non riuscirà a selezionare il miglior modello possibile a due predittori perché M 1 conterrà x 1 , quindi M 2 deve contenere anche x 1 oltre a un’altra variabile.