Що таке зміщення агрегації? (пояснення та приклад)
Зміщення агрегації виникає, коли неправильно припускається, що тенденції, що спостерігаються в зведених даних, також застосовуються до окремих точок даних.
Найпростіший спосіб зрозуміти цей тип упередженості — це взяти простий приклад.
Приклад: зміщення агрегації
Припустімо, дослідники хочуть зрозуміти зв’язок між середніми роками навчання та середнім доходом сім’ї в певному штаті. Вони отримують зведені дані для 4 різних міст штату та обчислюють співвідношення між середньою освітою та середнім доходом домогосподарства.
Виявляється, кореляція між середнім роком навчання та середнім доходом домогосподарства становить 0,9632 . Це дуже позитивний коефіцієнт кореляції.
Дослідники навіть створюють діаграму розсіювання, щоб візуалізувати зв’язок між середніми роками навчання та середнім доходом сім’ї:
Не дивлячись фактично на індивідуальні дані, вони могли б опублікувати звіт, у якому стверджувалося б, що більше років навчання сильно корелює з доходом домогосподарства.
Припустимо, однак, що новий дослідник приходить через рік і отримує дані про окремі домогосподарства в тому самому наборі міст. Припустімо, вона створює таку діаграму розсіювання даних:
Вона обчислює кореляцію між двома змінними та виявляє, що насправді вона становить лише 0,1788 – все ще позитивна кореляція, але далеко не така сильна, як кореляція, виявлена попередніми дослідниками.
Виявляється, коли дані були зведені, вони охопили справжню тенденцію між освітою та доходом, яка мала місце на індивідуальному рівні.
Насправді, коли ми розглядаємо місто за містом на діаграмі розсіювання, зв’язок між освітою та доходом фактично є негативним!
Вплив зміщення агрегації
Зміщення агрегації досить часто зустрічається в дослідженнях просто тому, що часто неправильно припускають, що тенденції, які з’являються на сукупному рівні, також повинні проявлятися на індивідуальному рівні. На жаль, це не завжди так, як показує попередній приклад.
Упередження агрегації може спричинити за результатами дослідження неправильні висновки та введення в оману. Цей тип упередження особливо шкідливий, коли йдеться про кореляцію між змінними.
Навіть якщо кореляція між сукупними даними двох змінних є позитивною, основна кореляція між двома змінними на рівні окремого спостереження насправді може бути такою:
- Негативна кореляція
- Немає кореляції
- Позитивна кореляція
Спосіб уникнути такого типу упередженості полягає в проведенні досліджень з використанням окремих точок даних, а не сукупних точок даних, щоб ви могли виявити справжній зв’язок між двома змінними.