Una guida alla multicollinearità e al vif nella regressione
La multicollinearità nell’analisi di regressione si verifica quando due o più variabili predittive sono altamente correlate tra loro, in modo tale da non fornire informazioni univoche o indipendenti nel modello di regressione.
Se il grado di correlazione tra le variabili è sufficientemente elevato, ciò può causare problemi durante l’adattamento e l’interpretazione del modello di regressione.
Ad esempio, supponiamo di eseguire un’analisi di regressione utilizzando la variabile di risposta al salto verticale massimo e le seguenti variabili predittive:
- altezza
- taglia di scarpe
- ore trascorse a esercitarsi al giorno
In questo caso, l’altezza e il numero di scarpe sono probabilmente altamente correlati, poiché le persone più alte tendono ad avere numeri di scarpe più grandi. Ciò significa che è probabile che la multicollinearità costituisca un problema in questa regressione.
Questo tutorial spiega perché la multicollinearità è un problema, come rilevarla e come risolverla.
Perché la multicollinearità è un problema
Uno degli obiettivi principali dell’analisi di regressione è isolare la relazione tra ciascuna variabile predittrice e la variabile di risposta.
In particolare, quando eseguiamo l’analisi di regressione, interpretiamo ciascun coefficiente di regressione come la variazione media nella variabile di risposta, presupponendo che tutte le altre variabili predittive nel modello rimangano costanti.
Ciò significa che assumiamo di essere in grado di modificare i valori di una determinata variabile predittrice senza modificare i valori di altre variabili predittive.
Tuttavia, quando due o più variabili predittive sono altamente correlate, diventa difficile modificare una variabile senza modificarne un’altra.
Ciò rende difficile per il modello di regressione stimare in modo indipendente la relazione tra ciascuna variabile predittiva e la variabile di risposta, poiché le variabili predittive tendono a cambiare all’unisono.
In generale, la multicollinearità pone due tipi di problemi:
- Le stime dei coefficienti del modello (e anche i segni dei coefficienti) possono variare considerevolmente a seconda delle altre variabili predittive incluse nel modello.
- La precisione delle stime dei coefficienti è ridotta, rendendo i valori p inaffidabili. Ciò rende difficile determinare quali variabili predittive siano effettivamente statisticamente significative.
Come rilevare la multicollinearità
Il modo più comune per rilevare la multicollinearità è utilizzare il fattore di inflazione della varianza (VIF) , che misura la correlazione e la forza della correlazione tra le variabili predittive in un modello di regressione.
Utilizzo del fattore di inflazione della varianza (VIF)
La maggior parte dei software statistici è in grado di calcolare il VIF per un modello di regressione. Il valore VIF inizia da 1 e non ha un limite superiore. Una regola generale per interpretare i VIF è:
- Un valore pari a 1 indica che non esiste alcuna correlazione tra una determinata variabile predittore e qualsiasi altra variabile predittore nel modello.
- Un valore compreso tra 1 e 5 indica una correlazione moderata tra una determinata variabile predittiva e altre variabili predittive nel modello, ma spesso non è abbastanza grave da richiedere un’attenzione speciale.
- Un valore maggiore di 5 indica una correlazione potenzialmente seria tra una determinata variabile predittrice e altre variabili predittive nel modello. In questo caso, le stime dei coefficienti e i valori p nei risultati della regressione sono probabilmente inaffidabili.
Ad esempio, supponiamo di eseguire un’analisi di regressione utilizzando le variabili predittive altezza , numero di scarpe e ore trascorse ad allenarsi ogni giorno per prevedere il salto verticale massimo dei giocatori di basket e ricevere il seguente risultato:
Nell’ultima colonna, possiamo vedere che i valori VIF per l’altezza e il numero di scarpe sono entrambi maggiori di 5. Ciò indica che probabilmente soffrono di multicollinearità e che le loro stime dei coefficienti e i valori p sono probabilmente inaffidabili.
Se osserviamo la stima del coefficiente per la misura della scarpa, il modello ci dice che per ogni unità aggiuntiva di aumento della misura della scarpa, l’aumento medio del salto verticale massimo è di -0,67498 pollici, assumendo che l’altezza e le ore di pratica rimangano costanti.
Questo non sembra avere senso, dato che ci aspetteremmo che i giocatori con scarpe più grandi siano più alti e quindi abbiano un salto verticale massimo più alto.
Questo è un classico esempio di multicollinearità che fa sembrare le stime dei coefficienti un po’ inverosimili e poco intuitive.
Come risolvere la multicollinearità
Se rilevi la multicollinearità, il passo successivo è decidere se è necessario risolverla in qualche modo. A seconda dell’obiettivo dell’analisi di regressione, potrebbe non essere necessario risolvere la multicollinearità.
Sapere:
1. Se è presente solo una moderata collinearità, probabilmente non sarà necessario risolverla in alcun modo.
2. La multicollinearità influisce solo sulle variabili predittive correlate tra loro. Se sei interessato a una variabile predittrice nel modello che non soffre di multicollinearità, allora la multicollinearità non è un problema.
3. La multicollinearità influisce sulle stime dei coefficienti e sui valori p, ma non influisce sulle previsioni o sulle statistiche della bontà di adattamento. Ciò significa che se il tuo obiettivo principale con la regressione è fare previsioni e non sei interessato a comprendere l’esatta relazione tra le variabili predittive e la variabile di risposta, non è necessario risolvere la multicollinearità.
Se si determina che è necessario correggere la multicollinearità, alcune soluzioni comuni includono:
1. Rimuovere una o più variabili altamente correlate. Questa è la soluzione più rapida nella maggior parte dei casi ed è spesso una soluzione accettabile perché le variabili rimosse sono comunque ridondanti e aggiungono poche informazioni univoche o indipendenti al modello.
2. Combina linearmente le variabili predittive in qualche modo, ad esempio aggiungendole o sottraendole in qualche modo. In questo modo, puoi creare una nuova variabile che comprende le informazioni di entrambe le variabili e non avrai più problemi di multicollinearità.
3. Eseguire un’analisi progettata per tenere conto di variabili altamente correlate, come l’analisi delle componenti principali o la regressione dei minimi quadrati parziali (PLS) . Queste tecniche sono progettate specificamente per gestire variabili predittive altamente correlate.