Biais de variable omis : définition & Exemples
Un biais de variable omise se produit lorsqu’une variable explicative pertinente n’est pas incluse dans un modèle de régression , ce qui peut entraîner un biais dans le coefficient d’une ou plusieurs variables explicatives du modèle.
Une variable omise est souvent exclue d’un modèle de régression pour l’une des deux raisons suivantes :
1. Les données pour la variable ne sont tout simplement pas disponibles.
2. L’effet de la variable explicative sur la variable de réponse est inconnu.
Pour que la variable omise fausse réellement les coefficients du modèle, les deux conditions suivantes doivent être remplies :
1. La variable omise doit être corrélée à une ou plusieurs variables explicatives du modèle.
2. La variable omise doit être corrélée à la variable de réponse dans le modèle.
Les effets du biais variable omis
Supposons que nous ayons deux variables explicatives, A et B, et une variable de réponse, Y. Supposons que nous ajustions un modèle de régression linéaire simple avec A comme seule variable explicative et que nous laissions B en dehors du modèle.
Si B est corrélé avec A et corrélé avec Y, cela entraînera un biais dans l’estimation du coefficient de A. Le diagramme suivant montre comment l’estimation du coefficient de A sera biaisée, en fonction de la nature de la relation avec B :
Exemple : biais de variable omis
Supposons que nous souhaitions étudier l’effet de la superficie en pieds carrés sur le prix de l’immobilier et que nous appliquions donc le modèle de régression linéaire simple suivant :
Prix de la maison = B 0 + B 1 (superficie carrée)
Supposons que nous trouvions que le modèle estimé est :
Prix de la maison = 40 203,91 + 118,31 (superficie carrée)
La façon dont nous interprétons le coefficient pour la superficie en pieds carrés est que chaque augmentation supplémentaire d’une unité en pieds carrés est associée à une augmentation du prix de l’immobilier de 118,31 $ en moyenne.
Cependant, supposons que nous laissions de côté la variable explicative âge qui s’avère être fortement négativement corrélée à la superficie en pieds carrés et fortement négativement corrélée au prix de l’immobilier. Cette variable devrait être dans le modèle, mais ce n’est pas le cas. Ainsi, l’estimation du coefficient pour la superficie en pieds carrés est probablement biaisée.
Étant donné que l’âge est négativement corrélé à la fois à la variable explicative et à la variable de réponse dans le modèle, nous nous attendons à ce que l’estimation du coefficient pour la superficie en pieds carrés soit biaisée positivement :
Supposons que nous trouvions des données sur l’âge du logement et que nous les incluions ensuite dans le modèle. Le modèle devient alors :
Prix de la maison = B 0 + B 1 (superficie carrée) + B 2 (âge)
Supposons que nous trouvions que le modèle estimé est :
Prix de la maison = 123 426,20 + 81,06 (superficie carrée) – 1 291,04 (âge)
Notez que l’estimation du coefficient pour la superficie en pieds carrés a considérablement diminué, ce qui signifie qu’elle était biaisée positivement dans le modèle précédent.
La façon dont nous interprétons le coefficient de la superficie en pieds carrés dans ce modèle est que chaque augmentation supplémentaire d’une unité en pieds carrés est associée à une augmentation moyenne du prix de l’immobilier de 81,06 $, en supposant que l’âge reste constant.
Que faire en cas de biais de variable omis
Malheureusement, le biais de variables omises se produit souvent dans le monde réel, car certaines variables devraient généralement être incluses dans un modèle de régression, mais ne le sont pas parce que les données les concernant ne sont pas disponibles ou que la relation entre elles et la variable de réponse est inconnue.
Si possible, vous devriez essayer d’inclure toutes les variables explicatives pertinentes dans un modèle de régression afin de pouvoir comprendre la véritable relation entre les variables explicatives et la variable de réponse.
L’exclusion des variables explicatives pertinentes d’un modèle peut affecter considérablement l’interprétation du modèle, comme nous l’avons vu dans l’exemple précédent avec les prix de l’immobilier.
Ressources additionnelles
Qu’est-ce qu’une variable cachée ?
Qu’est-ce qu’une variable confusionnelle ?