Variables cachées : définition & Exemples



Une variable cachée est une variable qui n’est pas incluse dans une analyse statistique, mais qui a un impact sur la relation entre deux variables au sein de l’analyse.

Une variable cachée peut cacher la véritable relation entre les variables ou elle peut faussement donner l’impression qu’une relation est présente entre les variables. Essentiellement, des variables cachées peuvent rendre les résultats d’une étude trompeurs.

Dans les études observationnelles, il est important d’être conscient du fait que des variables cachées peuvent entraîner des interprétations inhabituelles des données et des relations entre les variables. Dans les études expérimentales, il est important de concevoir l’expérience de manière à éliminer (autant que possible) le risque de variables cachées.

Exemples de variables cachées

Les exemples suivants illustrent plusieurs cas dans lesquels des variables cachées pourraient être présentes dans une étude :

Exemple 1

Un chercheur découvre que les ventes de glaces et les attaques de requins sont fortement corrélées positivement. Cela signifie-t-il que l’augmentation des ventes de glaces provoque davantage d’attaques de requins ?

C’est peu probable. La cause la plus probable est la météo variable qui se cache. Quand il fait plus chaud dehors, plus de gens achètent des glaces et plus de gens vont dans l’océan.

Exemple 2

Un chercheur découvre que la consommation de pop-corn et le nombre d’accidents de la route au fil des ans sont fortement corrélés. Cela signifie-t-il qu’une consommation plus élevée de pop-corn provoque davantage d’accidents de la route ?

C’est peu probable. La cause la plus probable est la population variable qui se cache. À mesure que la population augmente, la quantité de pop-corn consommée et le nombre d’accidents de la route augmentent.

Exemple 3

Une étude révèle que plus il y a de volontaires qui se présentent après une catastrophe naturelle, plus les dégâts sont importants. Cela signifie-t-il que les volontaires causent davantage de dégâts ?

C’est peu probable. La cause la plus probable est l’ ampleur variable de la catastrophe naturelle . Une catastrophe naturelle plus importante entraîne la présence d’un plus grand nombre de bénévoles ainsi qu’une augmentation du montant des dégâts causés par la catastrophe naturelle.

Exemple 4

Une étude révèle que les ventes de gants et les accidents de snowboard sont fortement corrélés. Cela signifie-t-il que les gants provoquent davantage d’accidents en snowboard ?

C’est peu probable. La cause la plus probable est la température variable qui se cache. À mesure que la température baisse, de plus en plus de gens achètent des gants et de plus en plus de gens font du snowboard.

Comment identifier les variables cachées

Pour découvrir les variables cachées, il est utile d’avoir une expertise dans le domaine étudié. En connaissant quelles variables potentielles pourraient affecter la relation entre les variables de l’étude qui ne sont pas explicitement incluses dans l’étude, vous pourrez peut-être découvrir des variables potentielles cachées.

Une autre façon d’identifier les variables potentielles cachées consiste à examiner les parcelles résiduelles. S’il existe une tendance (linéaire ou non linéaire) dans les résidus, cela pourrait signifier qu’une variable cachée non incluse dans l’étude a un impact sur les variables de l’étude d’une manière ou d’une autre.

Comment éliminer le risque de variables cachées

Dans les études observationnelles, il peut être très difficile d’éliminer le risque de variables cachées. Dans la plupart des cas, le mieux que vous puissiez faire est simplement d’identifier, plutôt que de prévenir, les variables potentielles cachées qui pourraient avoir un impact sur l’étude.

Cependant, dans les études expérimentales, l’impact des variables cachées peut être en grande partie éliminé grâce à une bonne conception expérimentale.

Par exemple, supposons que nous voulions savoir si deux pilules ont un impact différent sur la tension artérielle. Nous savons que des variables cachées telles que l’alimentation et les habitudes tabagiques ont également un impact sur la tension artérielle. Nous pouvons donc tenter de contrôler ces variables cachées en utilisant un plan randomisé . Cela signifie que nous assignons au hasard les patients à prendre soit la première, soit la deuxième pilule.

Puisque nous répartissons les patients en groupes de manière aléatoire, nous pouvons supposer que les variables cachées affecteront les deux groupes à peu près de la même manière. Cela signifie que toute différence de tension artérielle peut être attribuée à la pilule plutôt qu’à l’effet d’une variable cachée.

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *