Una semplice introduzione al potenziamento del machine learning


La maggior parte degli algoritmi di machine learning supervisionati si basano sull’utilizzo di un singolo modello predittivo come la regressione lineare , la regressione logistica , la regressione ridge , ecc.

Tuttavia, metodi come il bagging e le foreste casuali creano molti modelli diversi basati su campioni bootstrap ripetuti del set di dati originale. Le previsioni sui nuovi dati vengono effettuate prendendo la media delle previsioni effettuate dai singoli modelli.

Questi metodi tendono a offrire un miglioramento nell’accuratezza della previsione rispetto ai metodi che utilizzano un solo modello predittivo perché utilizzano il seguente processo:

Un altro metodo che tende a offrire un miglioramento ancora maggiore nell’accuratezza predittiva è noto come boosting .

Cos’è il potenziamento?

Il boosting è un metodo che può essere utilizzato con qualsiasi tipo di modello, ma viene utilizzato più spesso con gli alberi decisionali.

L’idea alla base del potenziamento è semplice:

1. Innanzitutto, costruisci un modello debole.

  • Un modello “debole” è quello il cui tasso di errore è solo leggermente migliore di una stima casuale.
  • In pratica, si tratta solitamente di un albero decisionale con solo una o due divisioni.

2. Successivamente, costruisci un altro modello debole basato sui residui del modello precedente.

  • In pratica, utilizziamo i residui del modello precedente (ovvero gli errori nelle nostre previsioni) per adattare un nuovo modello che migliora leggermente il tasso di errore complessivo.

3. Continuare questo processo finché la convalida incrociata k-fold non ci dice di interrompere.

Utilizzando questo metodo, possiamo iniziare con un modello debole e continuare a “migliorare” le sue prestazioni costruendo sequenzialmente nuovi alberi che migliorano le prestazioni dell’albero precedente fino ad ottenere un modello finale con elevata precisione predittiva.

Promuovere l’apprendimento automatico

Perché il potenziamento funziona?

Si scopre che il potenziamento è in grado di produrre alcuni dei modelli più potenti di tutto l’apprendimento automatico.

In molti settori, i modelli potenziati vengono utilizzati come modelli di riferimento nella produzione perché tendono a sovraperformare tutti gli altri modelli.

Il motivo per cui i modelli potenziati funzionano così bene dipende dalla comprensione di un’idea semplice:

1. Innanzitutto, i modelli migliorati costruiscono un albero decisionale debole che ha una bassa accuratezza predittiva. Si dice che questo albero decisionale abbia una varianza bassa e un bias elevato.

2. Poiché i modelli migliorati seguono il processo di miglioramento sequenziale degli alberi decisionali precedenti, il modello complessivo è in grado di ridurre lentamente la distorsione in ogni fase senza aumentare significativamente la varianza.

3. Il modello finale adattato tende ad avere bias e varianza sufficientemente bassi, portando a un modello in grado di produrre bassi tassi di errore di test sui nuovi dati.

Vantaggi e svantaggi del potenziamento

L’ovvio vantaggio del boosting è che è in grado di produrre modelli con elevata precisione predittiva rispetto a quasi tutti gli altri tipi di modelli.

Un potenziale svantaggio è che un modello migliorato adattato è molto difficile da interpretare. Sebbene possa offrire un’enorme capacità di prevedere i valori di risposta di nuovi dati, è difficile spiegare l’esatto processo utilizzato per raggiungere questo obiettivo.

In pratica, la maggior parte dei data scientist e dei professionisti dell’apprendimento automatico creano modelli migliorati perché vogliono essere in grado di prevedere con precisione i valori di risposta dei nuovi dati. Pertanto, il fatto che i modelli migliorati siano difficili da interpretare generalmente non costituisce un problema.

Booster in pratica

In pratica, esistono molti tipi di algoritmi utilizzati per il boost, tra cui:

A seconda delle dimensioni del set di dati e della potenza di elaborazione della macchina, uno di questi metodi potrebbe essere preferibile all’altro.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *