Что такое смещение агрегирования? (объяснение и пример)
Ошибка агрегирования возникает, когда ошибочно предполагается, что тенденции, наблюдаемые в агрегированных данных, применимы и к отдельным точкам данных.
Самый простой способ понять этот тип предвзятости — взять простой пример.
Пример: смещение агрегирования
Предположим, исследователи хотят понять взаимосвязь между средним количеством лет обучения и средним доходом семьи в определенном штате. Они получают агрегированные данные по 4 разным городам штата и рассчитывают корреляцию между средним образованием и средним доходом семьи.
Оказывается, корреляция между средним количеством лет обучения и средним доходом домохозяйства составляет 0,9632 . Это очень положительный коэффициент корреляции.
Исследователи даже создают диаграмму рассеяния, чтобы визуализировать взаимосвязь между средним количеством лет обучения и средним доходом семьи:
Даже не рассматривая отдельные данные, они могли бы опубликовать отчет, в котором утверждается, что продолжительность обучения сильно положительно коррелирует с доходом домохозяйства.
Предположим, однако, что год спустя к нам приходит новый исследователь и получает данные об отдельных домохозяйствах в том же наборе городов. Предположим, она создает следующую диаграмму рассеяния данных:
Она вычисляет корреляцию между двумя переменными и обнаруживает, что на самом деле она составляет всего 0,1788 — все еще положительная корреляция, но далеко не такая сильная, как корреляция, обнаруженная предыдущими исследователями.
Оказывается, когда данные были агрегированы, они отражали истинную тенденцию между образованием и доходом, которая имела место на индивидуальном уровне.
Фактически, если мы посмотрим на диаграмму рассеяния по городам, связь между образованием и доходом на самом деле будет отрицательной!
Эффекты систематической ошибки агрегирования
Предвзятость агрегирования довольно часто возникает в исследованиях просто потому, что часто ошибочно предполагается, что тенденции, возникающие на агрегированном уровне, должны также проявляться и на индивидуальном уровне. К сожалению, это не всегда так, как показывает предыдущий пример.
Предвзятость агрегирования может привести к тому, что результаты исследования сделают неправильные выводы и введут в заблуждение. Этот тип предвзятости особенно вреден, когда речь идет о корреляциях между переменными.
Даже если корреляция между совокупными данными двух переменных положительна, основная корреляция между двумя переменными на уровне отдельного наблюдения может фактически быть следующей:
- Отрицательная корреляция
- Нет корреляции
- Положительная корреляция
Чтобы избежать предвзятости такого типа, необходимо проводить исследования с использованием отдельных точек данных, а не совокупных точек данных, чтобы вы могли обнаружить истинную взаимосвязь между двумя переменными.