Migliore selezione di sottoinsiemi nell'apprendimento automatico (spiegazione ed esempi)


Nell’apprendimento automatico, spesso desideriamo creare modelli utilizzando un insieme di variabili predittive e una variabile di risposta . Il nostro obiettivo è costruire un modello in grado di utilizzare efficacemente le variabili predittive per prevedere il valore della variabile di risposta.

Dato un insieme di p variabili predittive totali, ci sono molti modelli che potremmo potenzialmente costruire. Un metodo che possiamo utilizzare per scegliere il modello migliore è noto come selezione del miglior sottoinsieme e funziona come segue:

1. Sia M 0 il modello nullo, che non contiene alcuna variabile predittiva.

2. Per k = 1, 2, … p:

  • Stima tutti i modelli p C k che contengono esattamente k predittori.
  • Scegli il migliore tra questi modelli pCk e chiamalo Mk . Definisci “migliore” come il modello con il R 2 più alto o, equivalentemente, l’RSS più basso.

3. Selezionare un singolo modello migliore da M 0 … M p utilizzando l’errore di previsione della convalida incrociata, Cp, BIC, AIC o R 2 corretto.

Si noti che per un insieme di p variabili predittive, esistono 2 p modelli possibili.

Esempio di selezione del sottoinsieme migliore

Supponiamo di avere un set di dati con p = 3 variabili predittive e una variabile di risposta, y. Per eseguire la migliore selezione del sottoinsieme con questo set di dati, dovremmo adattare i seguenti modelli 2 p = 2 3 = 8:

  • Un modello senza predittori
  • Un modello con predittore x 1
  • Un modello con predittore x 2
  • Un modello con predittore x 3
  • Un modello con x 1 , x 2 predittori
  • Un modello con predittori x 1 , x 3
  • Un modello con predittori x 2 , x 3
  • Un modello con predittori x 1 , x 2 , x 3

Quindi sceglieremmo il modello con il R2 più alto da ciascun insieme di modelli con k predittori. Ad esempio, potremmo finire per scegliere:

  • Un modello senza predittori
  • Un modello con predittore x 2
  • Un modello con x 1 , x 2 predittori
  • Un modello con predittori x 1 , x 2 , x 3

Quindi eseguiremo la convalida incrociata e sceglieremo il modello migliore come quello che risulta nell’errore di previsione più basso, Cp, BIC, AIC o R2 corretto.

Ad esempio, potremmo scegliere il seguente modello come modello “migliore” perché ha prodotto l’errore di previsione con convalida incrociata più basso:

  • Un modello con x 1 , x 2 predittori

Criteri per la scelta del modello “migliore”.

Il passaggio finale nella selezione del sottoinsieme migliore consiste nello scegliere il modello con l’errore di previsione più basso, il Cp più basso, il BIC più basso, l’AIC più basso o l’ R2 aggiustato più basso. più alto.

Ecco le formule utilizzate per calcolare ciascuna di queste metriche:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 regolato: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Oro:

  • d: il numero di predittori
  • n: osservazioni totali
  • σ̂: Stima della varianza dell’errore associata a ciascuna misura di risposta in un modello di regressione
  • RSS: somma residua dei quadrati dal modello di regressione
  • TSS: somma totale dei quadrati del modello di regressione

Vantaggi e svantaggi della selezione del miglior sottoinsieme

La selezione del sottoinsieme migliore offre i seguenti vantaggi:

  • È un approccio semplice da comprendere e interpretare.
  • Ciò ci consente di identificare il miglior modello possibile poiché consideriamo tutte le combinazioni di variabili predittive.

Tuttavia, questo metodo presenta i seguenti svantaggi:

  • Questo può essere computazionalmente intenso. Per un insieme di p variabili predittive, ci sono 2 p modelli possibili. Ad esempio, con 10 variabili predittive, ci sono 2 10 = 1000 possibili modelli da considerare.
  • Poiché considera un numero molto elevato di modelli, potrebbe potenzialmente trovare un modello che funzioni bene sui dati di training ma non sui dati futuri. Ciò potrebbe portare a un overfitting .

Conclusione

Sebbene selezionare il sottoinsieme migliore sia semplice da implementare e comprendere, potrebbe non essere pratico se si lavora con un set di dati contenente un numero elevato di predittori e potrebbe potenzialmente portare a un overfitting.

Un’alternativa a questo metodo è nota come selezione graduale , che è più efficiente dal punto di vista computazionale.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *