Comprendere l'eteroschedasticità nell'analisi di regressione


Nell’analisi di regressione, l’eteroschedasticità (a volte scritta eteroschedasticità) si riferisce alla dispersione ineguale di residui o termini di errore. Più precisamente, questo è il caso in cui si verifica un cambiamento sistematico nella distribuzione dei residui nell’intervallo dei valori misurati.

L’eteroschedasticità è un problema perché la regressione dei minimi quadrati ordinari (OLS) presuppone che i residui provengano da una popolazione che ha omoschedasticità , ovvero varianza costante.

Quando l’eteroschedasticità è presente in un’analisi di regressione, i risultati dell’analisi diventano difficili da credere. Nello specifico, l’eteroschedasticità aumenta la varianza delle stime dei coefficienti di regressione, ma il modello di regressione non ne tiene conto.

Ciò rende molto più probabile che un modello di regressione affermi che un termine nel modello è statisticamente significativo, quando in realtà non lo è.

Questo tutorial spiega come rilevare l’eteroschedasticità, le cause dell’eteroschedasticità e i potenziali modi per risolvere il problema dell’eteroschedasticità.

Come rilevare l’eteroschedasticità

Il modo più semplice per rilevare l’eteroschedasticità è utilizzare un grafico valore/residuo adattato .

Una volta adattata una linea di regressione a un set di dati, è possibile creare un grafico a dispersione che mostra i valori adattati del modello rispetto ai residui di tali valori adattati.

Il grafico a dispersione seguente mostra un grafico tipico del valore adattato rispetto al residuo in cui è presente l’eteroschedasticità.

Notare come i residui si diffondono sempre di più all’aumentare dei valori adattati. Questa forma a “cono” è un segno rivelatore di eteroschedasticità.

Quali sono le cause dell’eteroschedasticità?

L’eteroschedasticità si verifica naturalmente nei set di dati in cui esiste un’ampia gamma di valori di dati osservati. Per esempio:

  • Consideriamo un set di dati che includa le entrate e le spese annuali di 100.000 persone negli Stati Uniti. Per le persone con redditi più bassi, la variabilità delle spese corrispondenti sarà inferiore, perché queste persone probabilmente avranno abbastanza soldi solo per pagare i beni di prima necessità. Per gli individui con redditi più elevati, ci sarà una maggiore variabilità nelle spese corrispondenti poiché questi individui avranno più soldi da spendere se lo desiderano. Alcune persone con redditi più alti sceglieranno di spendere la maggior parte del proprio reddito, mentre altre sceglieranno di essere frugali e spenderne solo una parte. Pertanto, la variabilità della spesa tra questi individui a reddito più elevato sarà intrinsecamente più elevata.
  • Considera un set di dati che includa le popolazioni e il numero di fioristi in 1.000 diverse città degli Stati Uniti. Per le città scarsamente popolate, può essere comune avere solo uno o due fioristi presenti. Ma nelle città più popolate il numero dei fioristi sarà molto più variabile. Queste città possono avere dai 10 ai 100 negozi. Ciò significa che quando creiamo un’analisi di regressione e utilizziamo la popolazione per prevedere il numero di fioristi, ci sarà intrinsecamente una maggiore variabilità nei residui per le città più popolate.

Alcuni set di dati sono semplicemente più inclini all’eteroschedasticità rispetto ad altri.

Come risolvere l’eteroschedasticità

Esistono tre modi comuni per correggere l’eteroschedasticità:

1. Trasforma la variabile dipendente

Un modo per correggere l’eteroschedasticità è trasformare in qualche modo la variabile dipendente. Una trasformazione comune consiste semplicemente nel prendere il logaritmo della variabile dipendente.

Ad esempio, se utilizziamo la dimensione della popolazione (variabile indipendente) per prevedere il numero di fioristi in una città (variabile dipendente), possiamo invece provare a utilizzare la dimensione della popolazione per prevedere il logaritmo del numero di fioristi in una città.

L’utilizzo del logaritmo della variabile dipendente, anziché della variabile dipendente originale, spesso comporta la scomparsa dell’eteroschedasticità.

2. Ridefinire la variabile dipendente

Un altro modo per correggere l’eteroschedasticità è ridefinire la variabile dipendente. Un modo comune per farlo è utilizzare un tasso per la variabile dipendente, anziché il valore grezzo.

Ad esempio, invece di utilizzare la dimensione della popolazione per prevedere il numero di fioristi in una città, possiamo utilizzare la dimensione della popolazione per prevedere il numero di fioristi pro capite.

Nella maggior parte dei casi, ciò riduce la variabilità che si verifica naturalmente all’interno di popolazioni più grandi poiché misuriamo il numero di fioristi per persona, piuttosto che il numero di fioristi stessi.

3. Utilizzare la regressione ponderata

Un altro modo per correggere l’eteroschedasticità è utilizzare la regressione ponderata. Questo tipo di regressione assegna un peso a ciascun punto dati in base alla varianza del relativo valore adattato.

In sostanza, ciò attribuisce pesi bassi ai punti dati che presentano varianze più elevate, riducendo i loro quadrati residui. Quando vengono utilizzati i pesi appropriati, ciò può eliminare il problema dell’eteroschedasticità.

Conclusione

L’eteroschedasticità è un problema abbastanza comune quando si tratta di analisi di regressione, poiché molti set di dati sono intrinsecamente soggetti a varianza non costante.

Tuttavia, utilizzando un grafico dei valori adattati rispetto a un grafico dei residui , può essere abbastanza semplice individuare l’eteroschedasticità.

E trasformando la variabile dipendente, ridefinendo la variabile dipendente o utilizzando la regressione ponderata, il problema dell’eteroschedasticità può spesso essere eliminato.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *