Qu’est-ce que le biais d’agrégation ? (Explication & #038; Exemple)
Un biais d’agrégation se produit lorsqu’on suppose à tort que les tendances observées dans les données agrégées s’appliquent également aux points de données individuels.
La façon la plus simple de comprendre ce type de biais est de prendre un exemple simple.
Exemple : biais d’agrégation
Supposons que les chercheurs souhaitent comprendre la relation entre le nombre moyen d’années d’études et le revenu moyen des ménages dans un certain État. Ils obtiennent des données agrégées pour 4 villes différentes de l’État et calculent la corrélation entre l’éducation moyenne et le revenu moyen des ménages.
Il s’avère que la corrélation entre le nombre moyen d’années d’études et le revenu moyen des ménages est de 0,9632 . Il s’agit d’un coefficient de corrélation très positif.
Les chercheurs créent même un nuage de points pour visualiser la relation entre le nombre moyen d’années d’études et le revenu moyen des ménages :
Sans réellement examiner les données individuelles, ils pourraient publier un rapport affirmant qu’un plus grand nombre d’années d’études est fortement corrélé positivement au revenu du ménage.
Supposons toutefois qu’un nouveau chercheur arrive un an plus tard et obtienne des données sur des ménages individuels dans le même ensemble de villes. Supposons qu’elle crée le nuage de points suivant des données :
Elle calcule la corrélation entre les deux variables et constate qu’elle n’est en réalité que de 0,1788 – une corrélation toujours positive, mais loin d’être aussi forte que la corrélation trouvée par les chercheurs précédents.
Il s’avère que lorsque les données ont été agrégées, elles couvraient la véritable tendance entre l’éducation et le revenu qui se produisait au niveau individuel.
En fait, lorsque nous regardons ville par ville dans le nuage de points, la relation entre l’éducation et le revenu est en réalité négative !
Effets du biais d’agrégation
Le biais d’agrégation se produit assez souvent dans la recherche simplement parce que l’on suppose souvent à tort que les tendances qui apparaissent au niveau global doivent également apparaître au niveau individuel. Malheureusement, ce n’est pas toujours le cas, comme le montre l’exemple précédent.
Le biais d’agrégation peut amener les résultats d’une étude à tirer des conclusions erronées et être trompeurs. Ce type de biais est particulièrement néfaste lorsqu’il concerne les corrélations entre variables.
Même si la corrélation entre les données agrégées de deux variables est positive, la corrélation sous-jacente entre les deux variables au niveau d’une observation individuelle peut en réalité être :
- Corrélation négative
- Aucune corrélation
- Correlation positive
La manière d’éviter ce type de biais consiste à mener des études en utilisant des points de données individuels plutôt que des points de données agrégés afin de pouvoir découvrir la véritable relation entre deux variables.