Cos’è un modello parsimonioso?
Un modello parsimonioso è quello che raggiunge il livello di adattamento desiderato utilizzando il minor numero possibile di variabili esplicative .
Il ragionamento alla base di questo tipo di modello nasce dall’idea del rasoio di Occam (a volte chiamato “principio di parsimonia”) secondo il quale la spiegazione più semplice è probabilmente quella corretta.
Applicato alla statistica, un modello che ha pochi parametri ma raggiunge un livello di adattamento soddisfacente dovrebbe essere preferito rispetto a un modello che ha moltissimi parametri e raggiunge solo un livello di adattamento leggermente superiore.
Ci sono due ragioni per questo:
1. I modelli parsimoniosi sono più facili da interpretare e comprendere. I modelli con meno parametri sono più facili da capire e spiegare.
2. I modelli parsimoniosi tendono ad avere una maggiore capacità predittiva. I modelli con meno parametri tendono a funzionare meglio se applicati a nuovi dati.
Consideriamo i due esempi seguenti per illustrare queste idee.
Esempio 1: Modelli parsimoniosi = Facile interpretazione
Supponiamo di voler costruire un modello utilizzando un insieme di variabili esplicative relative al settore immobiliare per prevedere i prezzi degli immobili. Consideriamo i seguenti due modelli con il loro R quadrato modificato:
Modello 1:
- Equazione: prezzo della casa = 8.830 + 81*(piedi quadrati)
- R2 rettificato: 0,7734
Modello 2:
- Equazione: Prezzo della casa = 8.921 + 77*(metri quadrati) + 7*(metri quadrati) 2 – 9*(età) + 600*(camere da letto) + 38*(bagni)
- R2 rettificato: 0,7823
Il primo modello ha solo una variabile esplicativa e un R2 corretto di 0,7734, mentre il secondo modello ha cinque variabili esplicative con un R2 corretto leggermente più alto.
Basandoci sul principio di parsimonia, preferiremmo utilizzare il primo modello perché ciascun modello ha approssimativamente la stessa capacità di spiegare la variazione dei prezzi delle case, ma il primo modello è molto più facile da comprendere e spiegare.
Ad esempio, nel primo modello, sappiamo che un aumento di un’unità della metratura di una casa è associato a un aumento medio del prezzo delle case di 81 dollari. È semplice da capire e spiegare.
Tuttavia, nel secondo esempio, le stime dei coefficienti sono molto più difficili da interpretare. Ad esempio, una stanza in più nella casa è associata a un aumento medio del prezzo della casa di 600 dollari, presupponendo che la metratura, l’età della casa e il numero di bagni rimangano costanti. È molto più difficile da capire e spiegare.
Esempio 2: modelli parsimoniosi = previsioni migliori
I modelli parsimoniosi tendono anche a fare previsioni più accurate sui nuovi set di dati perché hanno meno probabilità di adattarsi eccessivamente al set di dati originale.
In generale, i modelli con più parametri produrranno adattamenti più stretti e valori R2 più elevati rispetto ai modelli con meno parametri. Sfortunatamente, includere troppi parametri in un modello può far sì che il modello si adatti al rumore (o alla “casualità”) dei dati, piuttosto che alla vera relazione sottostante tra le variabili esplicative. e variabili di risposta.
Ciò significa che un modello molto complesso con molti parametri probabilmente avrà prestazioni scarse su un nuovo set di dati mai visto prima, rispetto a un modello più semplice con meno parametri.
Come scegliere un modello parsimonioso
Potrebbe esserci un intero corso dedicato al tema della selezione del modello , ma essenzialmente scegliere un modello parsimonioso significa scegliere un modello che offre le migliori prestazioni secondo una metrica.
Le metriche comunemente utilizzate che valutano i modelli in base alle loro prestazioni su un set di dati di addestramento e al numero di parametri includono:
1. Criterio informativo di Akaike (AIC)
L’AIC di un modello può essere calcolato come segue:
AIC = -2/n * LL + 2 * k/n
Oro:
- n: numero di osservazioni nel set di dati di addestramento.
- LL: verosimiglianza del modello sul dataset di addestramento.
- k: numero di parametri nel modello.
Utilizzando questo metodo, è possibile calcolare l’AIC di ciascun modello e quindi selezionare il modello con il valore AIC più basso come modello migliore.
Questo approccio tende a favorire modelli più complessi rispetto al metodo successivo, BIC.
2. Criterio informativo bayesiano (BIC)
Il BIC di un modello può essere calcolato come segue:
BIC = -2 * LL + log(n) * k
Oro:
- n: numero di osservazioni nel set di dati di addestramento.
- log: il logaritmo naturale (base e)
- LL: verosimiglianza del modello sul dataset di addestramento.
- k: numero di parametri nel modello.
Utilizzando questo metodo, è possibile calcolare il BIC di ciascun modello e quindi selezionare il modello con il valore BIC più basso come modello migliore.
Questo approccio tende a favorire modelli con meno parametri rispetto al metodo AIC.
3. Lunghezza minima della descrizione (MDL)
MDL è un modo per valutare modelli dal campo della teoria dell’informazione. Può essere calcolato come segue:
MDL = L(h) + L(D | h)
Oro:
- h: Il modello.
- D: Previsioni fatte dal modello.
- L(h): numero di bit necessari per rappresentare il modello.
- L(D | h): numero di bit richiesti per rappresentare le previsioni del modello sui dati di addestramento.
Utilizzando questo metodo, è possibile calcolare l’MDL di ciascun modello e quindi selezionare il modello con il valore MDL più basso come modello migliore.
A seconda del tipo di problema su cui stai lavorando, uno di questi metodi – AIC, BIC o MDL – può essere preferito rispetto agli altri per selezionare un modello parsimonioso.