Variables instrumentales : définition & Exemples


Souvent, en statistiques, nous cherchons à estimer l’effet d’une variable sur une autre. Par exemple, nous voulons peut-être savoir :

  • Comment le temps passé à étudier affecte-t-il les résultats aux examens ?
  • Comment un certain médicament affecte-t-il la tension artérielle ?
  • Comment le stress affecte-t-il la fréquence cardiaque ?

Dans chaque scénario, nous voulons comprendre si une variable prédictive affecte ou non une variable de réponse . Cependant, il existe souvent d’autres variables qui affectent la relation entre les deux variables.

Par exemple, supposons que nous utilisions un certain médicament comme variable prédictive et la pression artérielle comme variable de réponse. Nous nous intéressons uniquement à l’effet du médicament sur la tension artérielle :

Cependant, d’autres variables telles que le temps passé à faire de l’exercice, l’alimentation générale et le niveau de stress affectent également la tension artérielle :

Ainsi, si nous effectuons une régression linéaire simple en utilisant le médicament comme variable prédictive et la pression artérielle comme variable de réponse, nous ne pouvons pas être sûrs que les coefficients de régression captureront avec précision l’effet du médicament sur la tension artérielle, car des facteurs extérieurs ( exercice, alimentation, stress, etc.) pourraient également jouer un rôle.

Une façon potentielle de contourner ce problème consiste à utiliser une variable instrumentale .

Qu’est-ce qu’une variable instrumentale ?

Une variable instrumentale est une troisième variable introduite dans l’analyse de régression qui est corrélée à la variable prédictive, mais non corrélée à la variable de réponse. En utilisant cette variable, il devient possible d’estimer le véritable effet causal qu’une variable prédictive a sur une variable de réponse.

Par exemple, supposons que nous souhaitions estimer l’effet d’un certain médicament sur la tension artérielle :

Un exemple de variable instrumentale que nous pouvons utiliser dans cette analyse de régression est la proximité d’un individu par rapport à une pharmacie.

Cette variable « proximité » serait probablement fortement corrélée au fait que l’individu prenne ou non le médicament en question, car un individu ne serait pas en mesure de l’obtenir en premier lieu s’il n’habite pas à proximité d’une pharmacie.

Cependant, la variable « proximité » ne devrait pas avoir de corrélation avec la pression artérielle. La seule association qu’il aurait avec la pression artérielle se fait via la variable prédictive.

Variable instrumentale

La façon dont nous utilisons réellement une variable instrumentale consiste à effectuer une régression des variables instrumentales, parfois appelée régression des moindres carrés en deux étapes .

Régression des variables instrumentales

La régression des variables instrumentales (ou régression des moindres carrés en deux étapes) utilise l’approche suivante pour estimer l’effet d’une variable prédictive sur une variable de réponse :

Étape 1 : Ajuster un modèle de régression en utilisant la variable instrumentale comme variable prédictive.

Dans notre exemple spécifique, nous ajusterions d’abord le modèle de régression suivant :

Certains médicaments = B 0 + B 1 (proximité)

Il nous resterait alors des valeurs prédites pour certains médicaments (cd), que nous appellerons cd hat .

Étape 2 : Ajustez un deuxième modèle de régression en utilisant les valeurs prédites pour cd hat .

Ensuite, nous ajusterons le modèle de régression suivant :

Tension artérielle = B 0 + B 1 (cd hat )

Si le coefficient de régression du cd hat s’avère statistiquement significatif, nous pouvons alors dire qu’il existe un effet causal du médicament sur la tension artérielle.

La raison pour laquelle nous pouvons dire cela est que nous avons uniquement utilisé le terme « proximité » pour créer CD Hat et que nous savons que la proximité ne doit pas être corrélée à la tension artérielle, toute corrélation significative dans la régression de deuxième étape peut être attribuée à un certain médicament.

Précautions concernant l’utilisation de variables instrumentales

Une variable instrumentale ne doit être utilisée que si elle répond aux critères suivants :

  • Elle est fortement corrélée à la variable prédictive.
  • Elle n’est pas corrélée à la variable de réponse.
  • Elle n’est pas corrélée avec les autres variables exclues du modèle (par exemple, la proximité n’est pas corrélée à l’exercice, à l’alimentation ou au stress).

Si une variable instrumentale ne répond pas à ce critère, elle ne doit pas être utilisée dans le modèle de régression car elle produira probablement des résultats peu fiables et biaisés.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *