Variabili strumentali: definizione ed esempi


Spesso in statistica si cerca di stimare l’effetto di una variabile su un’altra. Ad esempio, potremmo voler sapere:

  • In che modo il tempo dedicato allo studio influisce sui punteggi degli esami?
  • In che modo un determinato farmaco influisce sulla pressione sanguigna?
  • In che modo lo stress influisce sulla frequenza cardiaca?

In ogni scenario, vogliamo capire se una variabile predittrice influenza o meno una variabile di risposta . Tuttavia, ci sono spesso altre variabili che influenzano la relazione tra le due variabili.

Ad esempio, supponiamo di utilizzare un determinato farmaco come variabile predittiva e la pressione sanguigna come variabile di risposta. Siamo interessati solo all’effetto del farmaco sulla pressione sanguigna:

Tuttavia, anche altre variabili come il tempo dedicato all’esercizio fisico, la dieta generale e il livello di stress influenzano la pressione sanguigna:

Pertanto, se eseguiamo una semplice regressione lineare utilizzando il farmaco come variabile predittiva e la pressione sanguigna come variabile di risposta, non possiamo essere sicuri che i coefficienti di regressione catturino accuratamente l’effetto del farmaco sulla pressione sanguigna, perché fattori esterni (esercizio fisico, anche dieta, stress, ecc.) potrebbero avere un ruolo.

Un potenziale modo per aggirare questo problema è utilizzare una variabile strumentale .

Cos’è una variabile strumentale?

Una variabile strumentale è una terza variabile introdotta nell’analisi di regressione che è correlata alla variabile predittore, ma non correlata alla variabile di risposta. Utilizzando questa variabile, diventa possibile stimare il vero effetto causale che una variabile predittore ha su una variabile di risposta.

Ad esempio, supponiamo di voler stimare l’effetto di un determinato farmaco sulla pressione sanguigna:

Un esempio di variabile strumentale che possiamo utilizzare in questa analisi di regressione è la vicinanza di un individuo a una farmacia.

Questa variabile di “prossimità” sarebbe probabilmente altamente correlata al fatto che l’individuo assuma o meno il farmaco in questione, poiché un individuo non sarebbe in grado di ottenerlo se non vive vicino a una farmacia.

Tuttavia, la variabile “prossimità” non dovrebbe avere alcuna correlazione con la pressione sanguigna. L’unica associazione che avrebbe con la pressione sanguigna è tramite la variabile predittrice.

Strumentale variabile

Il modo in cui utilizziamo effettivamente una variabile strumentale è eseguire la regressione della variabile strumentale, a volte chiamata regressione dei minimi quadrati a due stadi .

Regressione con variabili strumentali

La regressione con variabili strumentali (o regressione dei minimi quadrati a due stadi) utilizza il seguente approccio per stimare l’effetto di una variabile predittrice su una variabile di risposta:

Passaggio 1: adattare un modello di regressione utilizzando la variabile strumentale come variabile predittrice.

Nel nostro esempio specifico, dovremmo prima adattare il seguente modello di regressione:

Alcuni farmaci = B 0 + B 1 (prossimità)

Rimarremmo quindi con valori predetti per alcuni farmaci (cd), che chiameremo cd hat .

Passaggio 2: adattare un secondo modello di regressione utilizzando i valori previsti per cd hat .

Successivamente, adatteremo il seguente modello di regressione:

Pressione sanguigna = B 0 + B 1 (cd cappello )

Se il coefficiente di regressione di cd hat risulta statisticamente significativo, allora possiamo dire che esiste un effetto causale del farmaco sulla pressione sanguigna.

Il motivo per cui possiamo dire questo è perché abbiamo usato solo il termine “prossimità” per creare CD Hat e sappiamo che la prossimità non dovrebbe essere correlata alla pressione sanguigna; qualsiasi correlazione significativa nella regressione del secondo stadio può essere attribuita a un determinato farmaco.

Precauzioni riguardanti l’uso delle variabili strumentali

Una variabile strumentale dovrebbe essere utilizzata solo se soddisfa i seguenti criteri:

  • È fortemente correlato con la variabile predittiva.
  • Non è correlato con la variabile di risposta.
  • Non è correlato con altre variabili escluse dal modello (ad esempio, la prossimità non è correlata all’esercizio fisico, alla dieta o allo stress).

Se una variabile strumentale non soddisfa questo criterio, non dovrebbe essere utilizzata nel modello di regressione perché probabilmente produrrà risultati inaffidabili e distorti.

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *