Qu’est-ce qu’une covariable en statistiques ?



En statistique, les chercheurs souhaitent souvent comprendre la relation entre une ou plusieurs variables explicatives et une variable de réponse .

Cependant, il peut arriver que d’autres variables puissent affecter la variable de réponse et ne présentent pas d’intérêt pour les chercheurs. Ces variables sont appelées covariables .

Covariables : variables qui affectent une variable de réponse, mais qui ne présentent pas d’intérêt dans une étude.

Définition de la covariable dans les statistiques

Par exemple, supposons que les chercheurs souhaitent savoir si trois techniques d’étude différentes conduisent à des résultats moyens différents aux examens dans une école donnée. La technique d’étude est la variable explicative et la note de l’examen est la variable de réponse.

Cependant, il existe forcément des variations dans les capacités d’étude des étudiants au sein des trois groupes. Si cela n’est pas pris en compte, il s’agira d’une variation inexpliquée au sein de l’étude et il sera plus difficile de déterminer la véritable relation entre la technique d’étude et les résultats de l’examen.

Une façon d’en tenir compte pourrait être d’utiliser la note actuelle de l’élève dans la classe comme covariable . Il est bien connu que la note actuelle de l’étudiant est probablement corrélée à ses futurs résultats aux examens.

Exemple de covariables dans les statistiques

Ainsi, bien que la note actuelle ne soit pas une variable intéressante dans cette étude, elle peut être incluse comme covariable afin que les chercheurs puissent voir si la technique d’étude affecte les résultats aux examens, même après avoir pris en compte la note actuelle de l’étudiant dans la classe.

Les covariables apparaissent le plus souvent dans deux types de contextes : ANOVA (analyse de variance) et régression.

Covariables dans l’ANOVA

Lorsque nous effectuons une ANOVA (qu’il s’agisse d’une ANOVA unidirectionnelle , d’une ANOVA bidirectionnelle ou de quelque chose de plus complexe), nous souhaitons savoir s’il existe ou non une différence entre les moyennes de trois groupes indépendants ou plus.

Dans notre exemple précédent, nous souhaitions comprendre s’il existait ou non une différence dans les résultats moyens aux examens entre trois techniques d’étude différentes. Pour comprendre cela, nous aurions pu réaliser une ANOVA à un facteur.

Cependant, puisque nous savions que la note actuelle d’un étudiant était également susceptible d’affecter les résultats aux examens, nous pourrions l’inclure comme covariable et effectuer à la place une ANCOVA (analyse de covariance).

Ceci est similaire à une ANOVA, sauf que nous incluons une variable continue (la note actuelle de l’étudiant) comme covariable afin que nous puissions comprendre s’il existe ou non une différence dans les résultats moyens aux examens entre les trois techniques d’étude, même après avoir pris en compte les résultats de l’étudiant. note actuelle .

Covariables en régression

Lorsque nous effectuons une régression linéaire, nous souhaitons quantifier la relation entre une ou plusieurs variables explicatives et une variable de réponse.

Par exemple, nous pourrions effectuer une simple régression linéaire pour quantifier la relation entre la superficie en pieds carrés et les prix de l’immobilier dans une certaine ville. Cependant, on sait que l’âge d’une maison est également une variable qui affecte le prix de l’immobilier.

En particulier, les maisons plus anciennes peuvent être corrélées à des prix immobiliers plus bas. Dans ce cas, l’âge de la maison serait une covariable puisque nous ne sommes pas réellement intéressés à l’étudier, mais nous savons qu’il a un effet sur le prix de l’immobilier.

Ainsi, nous pourrions inclure l’âge de la maison comme variable explicative et exécuter une régression linéaire multiple avec la superficie en pieds carrés et l’âge de la maison comme variables explicatives et le prix de l’immobilier comme variable de réponse.

Ainsi, le coefficient de régression pour la superficie en pieds carrés nous indiquerait alors la variation moyenne du prix de l’immobilier associée à une augmentation d’une unité de la superficie en pieds carrés après prise en compte de l’âge de la maison .

Ressources additionnelles

Une introduction à ANCOVA (analyse de variance)
Comment interpréter les coefficients de régression
Comment effectuer une ANCOVA dans Excel
Comment effectuer une régression linéaire multiple dans Excel

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *