Wat is aggregatiebias? (uitleg & voorbeeld)


Aggregatiebias treedt op wanneer ten onrechte wordt aangenomen dat trends die in geaggregeerde gegevens worden waargenomen, ook van toepassing zijn op individuele gegevenspunten.

De eenvoudigste manier om dit soort vooroordelen te begrijpen, is door een eenvoudig voorbeeld te nemen.

Voorbeeld: aggregatiebias

Stel dat onderzoekers de relatie willen begrijpen tussen het gemiddelde aantal jaren onderwijs en het gemiddelde gezinsinkomen in een bepaalde staat. Ze verkrijgen geaggregeerde gegevens voor vier verschillende steden in de staat en berekenen de correlatie tussen het gemiddelde opleidingsniveau en het gemiddelde gezinsinkomen.

Het blijkt dat de correlatie tussen het gemiddelde aantal jaren onderwijs en het gemiddelde huishoudinkomen 0,9632 bedraagt. Dit is een zeer positieve correlatiecoëfficiënt.

Onderzoekers creëren zelfs een spreidingsdiagram om de relatie tussen het gemiddelde aantal jaren onderwijs en het gemiddelde gezinsinkomen te visualiseren:

Zonder daadwerkelijk naar individuele gegevens te kijken, zouden ze een rapport kunnen uitbrengen waarin wordt beweerd dat meer jaren onderwijs sterk positief gecorreleerd zijn met het gezinsinkomen.

Stel echter dat een nieuwe onderzoeker een jaar later arriveert en gegevens verkrijgt over individuele huishoudens in dezelfde reeks steden. Stel dat ze de volgende spreidingsdiagram van de gegevens maakt:

Aggregatievooroordeel

Ze berekent de correlatie tussen de twee variabelen en ontdekt dat deze in werkelijkheid slechts 0,1788 bedraagt – nog steeds een positieve correlatie, maar lang niet zo sterk als de correlatie die eerdere onderzoekers hebben gevonden.

Het blijkt dat toen de gegevens werden samengevoegd, deze de werkelijke trend tussen opleiding en inkomen op individueel niveau bestreken.

Als we in het spreidingsdiagram stad voor stad bekijken, is de relatie tussen opleiding en inkomen zelfs negatief!

Voorbeeld van aggregatiebias in statistieken

Effecten van aggregatiebias

Aggregatiebias komt vrij vaak voor in onderzoek, simpelweg omdat vaak ten onrechte wordt aangenomen dat trends die op geaggregeerd niveau verschijnen, ook op individueel niveau moeten voorkomen. Helaas is dit niet altijd het geval, zoals uit het vorige voorbeeld blijkt.

Aggregatiebias kan ertoe leiden dat de resultaten van een onderzoek onjuiste conclusies trekken en misleidend zijn. Dit soort vertekening is vooral schadelijk als het correlaties tussen variabelen betreft.

Zelfs als de correlatie tussen de geaggregeerde gegevens van twee variabelen positief is, kan de onderliggende correlatie tussen de twee variabelen op het niveau van een individuele waarneming feitelijk zijn:

  • Negatieve correlatie
  • Geen correlatie
  • Positieve correlatie

De manier om dit soort vertekening te voorkomen is door onderzoeken uit te voeren met behulp van individuele datapunten in plaats van geaggregeerde datapunten, zodat je de ware relatie tussen twee variabelen kunt ontdekken.

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert