Co to jest błąd agregacji? (wyjaśnienie i przykład)
Błąd agregacji ma miejsce, gdy błędnie zakłada się, że trendy obserwowane w danych zagregowanych mają zastosowanie również do poszczególnych punktów danych.
Najprostszym sposobem zrozumienia tego rodzaju uprzedzeń jest skorzystanie z prostego przykładu.
Przykład: błąd agregacji
Załóżmy, że badacze chcą zrozumieć związek pomiędzy średnimi latami nauki a średnim dochodem gospodarstwa domowego w określonym stanie. Pozyskują zagregowane dane dla 4 różnych miast stanu i obliczają korelację pomiędzy średnim wykształceniem a średnim dochodem gospodarstwa domowego.
Okazuje się, że korelacja pomiędzy przeciętną latą nauki a przeciętnym dochodem gospodarstwa domowego wynosi 0,9632 . Jest to bardzo pozytywny współczynnik korelacji.
Badacze stworzyli nawet wykres rozrzutu, aby zwizualizować związek między średnimi latami nauki a średnim dochodem gospodarstwa domowego:
Nie patrząc na dane indywidualne, mogliby opublikować raport stwierdzający, że większa liczba lat nauki jest silnie dodatnio skorelowana z dochodami gospodarstwa domowego.
Załóżmy jednak, że rok później przyjeżdża nowy badacz i uzyskuje dane dotyczące poszczególnych gospodarstw domowych w tym samym zbiorze miast. Załóżmy, że tworzy następujący wykres rozrzutu danych:
Oblicza korelację między dwiema zmiennymi i stwierdza, że w rzeczywistości wynosi ona tylko 0,1788 – nadal jest to korelacja dodatnia, ale nie tak silna, jak korelacja stwierdzona przez poprzednich badaczy.
Okazuje się, że dane zagregowane obejmowały prawdziwy trend pomiędzy wykształceniem a dochodami, jaki występował na poziomie indywidualnym.
W rzeczywistości, gdy spojrzymy na wykres rozrzutu miasto po mieście, związek między wykształceniem a dochodami jest w rzeczywistości ujemny!
Skutki błędu agregacji
Błąd agregacji występuje dość często w badaniach po prostu dlatego, że często błędnie zakłada się, że trendy pojawiające się na poziomie zagregowanym muszą również pojawiać się na poziomie indywidualnym. Niestety nie zawsze tak jest, jak pokazuje poprzedni przykład.
Stronniczość agregacji może spowodować, że wyniki badania pozwolą na wyciągnięcie błędnych wniosków i wprowadzenie w błąd. Ten typ błędu jest szczególnie szkodliwy, gdy dotyczy korelacji między zmiennymi.
Nawet jeśli korelacja między zagregowanymi danymi dwóch zmiennych jest dodatnia, podstawowa korelacja między dwiema zmiennymi na poziomie pojedynczej obserwacji może w rzeczywistości wyglądać następująco:
- Ujemna korelacja
- Brak powiązań
- Pozytywna korelacja
Sposobem na uniknięcie tego typu błędu systematycznego jest prowadzenie badań z wykorzystaniem pojedynczych punktów danych, a nie zagregowanych punktów danych, co umożliwi odkrycie prawdziwego związku między dwiema zmiennymi.