Was ist ein aggregationsbias? (erklärung & beispiel)
Eine Aggregationsverzerrung tritt auf, wenn fälschlicherweise davon ausgegangen wird, dass in aggregierten Daten beobachtete Trends auch für einzelne Datenpunkte gelten.
Der einfachste Weg, diese Art von Voreingenommenheit zu verstehen, besteht darin, ein einfaches Beispiel zu nehmen.
Beispiel: Aggregationsbias
Angenommen, Forscher möchten den Zusammenhang zwischen den durchschnittlichen Bildungsjahren und dem durchschnittlichen Haushaltseinkommen in einem bestimmten Bundesstaat verstehen. Sie erhalten aggregierte Daten für vier verschiedene Städte im Bundesstaat und berechnen den Zusammenhang zwischen durchschnittlicher Bildung und durchschnittlichem Haushaltseinkommen.
Es stellt sich heraus, dass die Korrelation zwischen der durchschnittlichen Ausbildungsdauer und dem durchschnittlichen Haushaltseinkommen 0,9632 beträgt. Dies ist ein sehr positiver Korrelationskoeffizient.
Forscher erstellen sogar ein Streudiagramm, um den Zusammenhang zwischen durchschnittlichen Bildungsjahren und durchschnittlichem Haushaltseinkommen zu veranschaulichen:
Ohne sich tatsächlich einzelne Daten anzusehen, könnten sie einen Bericht veröffentlichen, in dem behauptet wird, dass mehr Bildungsjahre stark positiv mit dem Haushaltseinkommen korrelieren.
Nehmen wir jedoch an, dass ein neuer Forscher ein Jahr später hinzukommt und Daten über einzelne Haushalte in denselben Städten erhält. Angenommen, sie erstellt das folgende Streudiagramm der Daten:
Sie berechnet die Korrelation zwischen den beiden Variablen und stellt fest, dass sie tatsächlich nur 0,1788 beträgt – immer noch eine positive Korrelation, aber bei weitem nicht so stark wie die von früheren Forschern gefundene Korrelation.
Es stellte sich heraus, dass die aggregierten Daten den tatsächlichen Trend zwischen Bildung und Einkommen auf individueller Ebene abdeckten.
Wenn wir im Streudiagramm Stadt für Stadt betrachten, ist der Zusammenhang zwischen Bildung und Einkommen tatsächlich negativ!
Auswirkungen der Aggregationsverzerrung
Aggregationsverzerrungen treten in der Forschung recht häufig auf, einfach weil oft fälschlicherweise angenommen wird, dass Trends, die auf der aggregierten Ebene auftreten, auch auf der individuellen Ebene auftreten müssen. Leider ist dies nicht immer der Fall, wie das vorherige Beispiel zeigt.
Aggregationsverzerrungen können dazu führen, dass die Ergebnisse einer Studie falsche Schlussfolgerungen ziehen und irreführend sind. Diese Art von Verzerrung ist besonders schädlich, wenn es um Korrelationen zwischen Variablen geht.
Selbst wenn die Korrelation zwischen den aggregierten Daten zweier Variablen positiv ist, kann die zugrunde liegende Korrelation zwischen den beiden Variablen auf der Ebene einer einzelnen Beobachtung tatsächlich wie folgt aussehen:
- Negative Korrelation
- Keine Korrelation
- Positive Korrelation
Die Möglichkeit, diese Art von Verzerrung zu vermeiden, besteht darin, Studien mit einzelnen Datenpunkten anstelle von aggregierten Datenpunkten durchzuführen, um die wahre Beziehung zwischen zwei Variablen herauszufinden.