Come testare la multicollinearità in stata


La multicollinearità nell’analisi di regressione si verifica quando due o più variabili esplicative sono altamente correlate tra loro, in modo tale da non fornire informazioni univoche o indipendenti nel modello di regressione. Se il grado di correlazione tra le variabili è sufficientemente elevato, ciò può causare problemi durante l’adattamento e l’interpretazione del modello di regressione.

Ad esempio, supponiamo di eseguire una regressione lineare multipla con le seguenti variabili:

Risposta variabile: massimo salto verticale

Variabili esplicative: numero di scarpe, altezza, tempo trascorso a esercitarsi

In questo caso, le variabili esplicative numero di scarpe e altezza sono probabilmente fortemente correlate poiché le persone alte tendono ad avere numeri di scarpe più grandi. Ciò significa che è probabile che la multicollinearità costituisca un problema in questa regressione.

Fortunatamente, è possibile rilevare la multicollinearità utilizzando una metrica chiamata fattore di inflazione della varianza (VIF) , che misura la correlazione e la forza della correlazione tra le variabili esplicative in un modello di regressione.

Questo tutorial spiega come utilizzare VIF per rilevare la multicollinearità in un’analisi di regressione in Stata.

Esempio: multicollinearità in Stata

Per questo esempio, utilizzeremo il set di dati integrato di Stata chiamato auto . Utilizzare il comando seguente per caricare il set di dati:

utilizzare automaticamente

Utilizzeremo il comando regress per adattare un modello di regressione lineare multipla utilizzando il prezzo come variabile di risposta e peso, lunghezza e mpg come variabili esplicative:

regressione prezzo peso lunghezza mpg

Output di regressione lineare multipla in Stata

Successivamente, utilizzeremo il comando vive per testare la multicollinearità:

vivace

VIF in Stata

Ciò produce un valore VIF per ciascuna delle variabili esplicative nel modello. Il valore VIF inizia da 1 e non ha un limite superiore. Una regola generale per interpretare i VIF è:

  • Un valore pari a 1 indica che non esiste alcuna correlazione tra una determinata variabile esplicativa e qualsiasi altra variabile esplicativa nel modello.
  • Un valore compreso tra 1 e 5 indica una correlazione moderata tra una determinata variabile esplicativa e altre variabili esplicative nel modello, ma spesso non è abbastanza grave da richiedere un’attenzione speciale.
  • Un valore maggiore di 5 indica una correlazione potenzialmente grave tra una determinata variabile esplicativa e altre variabili esplicative nel modello. In questo caso, le stime dei coefficienti e i valori p nei risultati della regressione sono probabilmente inaffidabili.

Possiamo vedere che i valori VIF per peso e lunghezza sono maggiori di 5, indicando che la multicollinearità è probabilmente un problema nel modello di regressione.

Come gestire la multicollinearità

Spesso il modo più semplice per gestire la multicollinearità è semplicemente rimuovere una delle variabili problematiche, perché la variabile che si sta rimuovendo è probabilmente comunque ridondante e aggiunge poche informazioni univoche o indipendenti al modello.

Per determinare quale variabile rimuovere, possiamo utilizzare il comando corr per creare unamatrice di correlazione per visualizzare i coefficienti di correlazione tra ciascuna variabile nel modello, che può aiutarci a identificare quali variabili potrebbero essere altamente correlate tra loro e potrebbero causare il problema della multicollinearità:

corr prezzo peso lunghezza mpg

Matrice di correlazione in Stata

Possiamo vedere che la lunghezza è altamente correlata sia al peso che al mpg e ha la correlazione più bassa con il prezzo variabile della risposta. Pertanto, la rimozione della lunghezza del modello potrebbe risolvere il problema della multicollinearità senza ridurre la qualità complessiva del modello di regressione.

Per verificarlo, possiamo eseguire nuovamente l’analisi di regressione utilizzando solo peso e mpg come variabili esplicative:

prezzo di regressione peso mpg

Output di regressione lineare multipla in Stata

Possiamo vedere che l’R quadrato corretto di questo modello è 0,2735 rispetto a 0,3298 nel modello precedente. Ciò indica che l’utilità complessiva del modello è solo leggermente diminuita. Quindi possiamo trovare i valori VIF utilizzando il comando VIF :

VIVACE

Valori VIF in Stata

Entrambi i valori VIF sono inferiori a 5, indicando che la multicollinearità non è più un problema nel modello.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *