Multicollinearità

Di Benjamin anderson Agosto 2, 2023 Statistiche 0 commenti

Questo articolo spiega cos’è la multicollinearità nelle statistiche. Scoprirai quindi quando esiste la multicollinearità, quali sono le conseguenze della multicollinearità, come identificare la multicollinearità e, infine, come risolvere questo problema.

Cos’è la multicollinearità?

La multicollinearità è una situazione che si verifica quando due o più variabili esplicative in un modello di regressione hanno un’elevata correlazione. In altre parole, in un modello di regressione, la multicollinearità esiste quando la relazione tra due o più variabili nel modello è molto forte.

Ad esempio, se eseguiamo un modello di regressione che mette in relazione l’aspettativa di vita di un paese con la dimensione della popolazione e il PIL, si verificherà sicuramente una multicollinearità tra la dimensione della popolazione e il PIL, poiché queste due variabili sono generalmente fortemente correlate. correlati. Sarà quindi difficile analizzare l’effetto di ciascuna variabile sull’aspettativa di vita.

Logicamente, le variabili di un modello saranno sempre correlate tra loro; solo in un processo idilliaco si verifica una non correlazione tra le variabili. Ciò che però ci interessa è che la correlazione tra le variabili sia bassa, altrimenti non potremmo conoscere l’effetto di ciascuna variabile esplicativa sulla variabile di risposta.

Le principali cause di multicollinearità sono generalmente la piccola dimensione del campione, l’esistenza di una relazione causale tra le variabili esplicative o la bassa variabilità delle osservazioni.

Tipi di multicollinearità

Esistono due tipi di multicollinearità:

Multicollinearità esatta : quando una o più variabili sono una combinazione lineare di altre variabili. In questo caso il coefficiente di correlazione tra variabili multicollineari è pari a 1.
Multicollinearità approssimativa : non esiste una combinazione lineare tra le variabili, ma il coefficiente di determinazione tra due o più variabili è molto vicino a 1 e quindi sono altamente correlate.

Conseguenze della multicollinearità

Il valore dei coefficienti di regressione del modello cambia quando vengono aggiunte variabili correlate, rendendo difficile l’interpretazione del modello di regressione risultante.
La precisione della stima dei parametri si riduce, quindi aumenta l’errore standard dei coefficienti di regressione.
Alcune delle variabili che causano la multicollinearità sono sicuramente ridondanti e quindi non è necessario includerle nel modello.
È probabile che si cada in una situazione di overfitting, ovvero il modello è overfitted e, per questo motivo, non è utile per fare previsioni.
I valori p dei coefficienti di regressione diventano meno affidabili. Pertanto, è più difficile determinare quali variabili includere e quali rimuovere nel modello di regressione.

Come rilevare la multicollinearità

Un modo per identificare la multicollinearità è calcolare la matrice di correlazione , perché contiene il coefficiente di correlazione tra tutte le variabili e, quindi, può essere osservato se una coppia di variabili è altamente correlata.

➤ Vedi: Matrice di correlazione

Tuttavia, con la matrice di correlazione, puoi solo sapere se due variabili sono correlate tra loro, ma non puoi sapere se esiste una combinazione tra un insieme di variabili. Per fare ciò, viene solitamente calcolato il fattore di inflazione della varianza.

Il fattore di inflazione della varianza (VIF) , chiamato anche fattore di inflazione della varianza (VIF) , è un coefficiente statistico calcolato per ciascuna variabile esplicativa e indica la correlazione di altre variabili con una determinata variabile esplicativa. Concretamente la sua formula è la seguente:

$FIV_i=\cfrac{1}{1-R_i^2}$

Oro

$FIV_i$

è il fattore di inflazione della varianza della variabile iy

$R_i^2$

è il coefficiente di determinazione del modello di regressione che ha la variabile i come variabile dipendente e il resto delle variabili come variabili indipendenti.

Pertanto, a seconda del valore dei fattori di inflazione della varianza ottenuti, è possibile sapere se esiste o meno multicollinearità:

VIF = 1 : Quando il fattore di inflazione della varianza è pari a 1, significa che non esiste correlazione tra la variabile dipendente e le altre variabili.
1 < FIV < 5 : esiste una correlazione tra le variabili, ma è moderata. In linea di principio, non è necessario applicare alcuna azione per correggere la multicollinearità.
VIF > 5 : Se un fattore di inflazione della varianza è maggiore di 1, significa che la multicollinearità del modello è elevata e, pertanto, occorre tentare di risolverla.

In pratica, i fattori di inflazione della varianza vengono solitamente calcolati utilizzando un software per computer, perché creare un modello di regressione per ciascuna variabile e quindi trovare manualmente il valore del coefficiente richiederebbe molto tempo.