7 tipi comuni di regressione (e quando utilizzarli)
L’analisi di regressione è una delle tecniche più comunemente utilizzate in statistica.
L’obiettivo fondamentale dell’analisi di regressione è quello di adattare un modello che descriva al meglio la relazione tra una o più variabili predittive e una variabile di risposta .
In questo articolo condividiamo i 7 modelli di regressione più comunemente utilizzati nella vita reale insieme a quando utilizzare ciascun tipo di regressione.
1. Regressione lineare
La regressione lineare viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta numerica.
Utilizzare quando:
- La relazione tra le variabili predittive e la variabile di risposta è ragionevolmente lineare.
- La variabile di risposta è una variabile numerica continua.
Esempio: un’azienda di vendita al dettaglio può adattare un modello di regressione lineare utilizzando la spesa pubblicitaria per prevedere le vendite totali.
Poiché la relazione tra queste due variabili è probabilmente lineare (più soldi spesi in pubblicità generalmente si traducono in più vendite) e la variabile di risposta (vendite totali) è una variabile numerica continua, ha senso adattare un modello di regressione lineare.
Risorsa: un’introduzione alla regressione lineare multipla
2. Regressione logistica
La regressione logistica viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta binaria.
Utilizzare quando:
- La variabile di risposta è binaria: può assumere solo due valori.
Esempio: i ricercatori medici possono adattare un modello di regressione logistica utilizzando l’esercizio fisico e l’abitudine al fumo per prevedere la probabilità che un individuo abbia un infarto.
Poiché la variabile di risposta (attacco cardiaco) è binaria – un individuo sperimenta un attacco cardiaco oppure no – è opportuno adattare un modello di regressione logistica.
Risorsa: un’introduzione alla regressione logistica
3. Regressione polinomiale
La regressione polinomiale viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta numerica.
Utilizzare quando:
- La relazione tra le variabili predittive e la variabile di risposta non è lineare.
- La variabile di risposta è una variabile numerica continua.
Esempio: gli psicologi possono adattare una regressione polinomiale utilizzando le “ore lavorate” per prevedere la “felicità complessiva” dei dipendenti in un determinato settore.
La relazione tra queste due variabili è probabilmente non lineare. Cioè, all’aumentare del numero di ore, un individuo può segnalare una maggiore felicità, ma oltre un certo numero di ore lavorate, è probabile che la felicità complessiva diminuisca. Poiché questa relazione tra la variabile predittore e la variabile risposta non è lineare, ha senso adattare un modello di regressione polinomiale.
Risorsa: un’introduzione alla regressione polinomiale
4. Regressione della cresta
La regressione Ridge viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta numerica.
Utilizzare quando:
- Le variabili predittive sono altamente correlate e la multicollinearità diventa un problema.
- La variabile di risposta è una variabile numerica continua.
Esempio: uno scienziato dei dati sul basket potrebbe adattare un modello di regressione ridge utilizzando variabili predittive come punti, assist e rimbalzi per prevedere gli stipendi dei giocatori.
È probabile che le variabili predittive siano altamente correlate poiché i giocatori migliori tendono ad avere più punti, assist e rimbalzi. Quindi, è probabile che la multicollinearità sia un problema, quindi possiamo minimizzare questo problema utilizzando la regressione della cresta.
Risorsa: un’introduzione alla regressione della cresta
5. Regressione al lazo
La regressione lazo è molto simile alla regressione Ridge e viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta numerica.
Utilizzare quando:
- Le variabili predittive sono altamente correlate e la multicollinearità diventa un problema.
- La variabile di risposta è una variabile numerica continua.
Esempio: un economista potrebbe adattare un modello di regressione lazo utilizzando variabili predittive come gli anni totali di scuola, le ore lavorate e il costo della vita per prevedere il reddito familiare.
Le variabili predittive sono probabilmente altamente correlate poiché gli individui più istruiti tendono anche a vivere in città con costi della vita più elevati e a lavorare più ore. Quindi, è probabile che la multicollinearità sia un problema, quindi possiamo minimizzare questo problema utilizzando la regressione lazo.
Si noti che la regressione Lazo e la regressione Ridge sono abbastanza simili. Quando la multicollinearità è un problema in un set di dati, si consiglia di adattare sia un modello di regressione Lasso che Ridge per vedere quale modello funziona meglio.
Risorsa: un’introduzione alla regressione lazo
6. Regressione di Poisson
La regressione di Poisson viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta.
Utilizzare quando:
- La variabile di risposta sono i dati di “conteggio”, ad esempio il numero di giorni di sole a settimana, il numero di incidenti stradali all’anno, il numero di chiamate effettuate al giorno, ecc.
Esempio: un’università può utilizzare la regressione di Poisson per esaminare il numero di studenti che si sono diplomati in uno specifico programma universitario in base al loro GPA al momento dell’ingresso nel programma e al loro sesso.
In questo caso, poiché la variabile di risposta è costituita dai dati di conteggio (possiamo “contare” il numero di studenti laureandi – 200, 250, 300, 413, ecc.), è opportuno utilizzare la regressione di Poisson.
Risorsa: un’introduzione alla regressione di Poisson
7. Regressione quantilica
La regressione quantilica viene utilizzata per adattare un modello di regressione che descrive la relazione tra una o più variabili predittive e una variabile di risposta.
Utilizzare quando:
- Vorremmo stimare uno specifico quantile o percentile della variabile di risposta, ad esempio il 90° percentile, il 95° percentile, ecc.
Esempio: un professore può utilizzare la regressione quantile per prevedere il 90° percentile previsto dei punteggi degli esami in base al numero di ore studiate:
In questo caso, poiché il docente vuole prevedere uno specifico percentile della variabile di risposta (punteggio dell’esame), è opportuno utilizzare la regressione quantilica.
Risorsa: un’introduzione alla regressione quantilica
Risorse addizionali
4 esempi di utilizzo della regressione lineare nella vita reale
4 esempi di utilizzo della regressione logistica nella vita reale
ANOVA vs regressione: qual è la differenza?
La guida completa: come riportare i risultati della regressione