Что такое смещение агрегирования? (объяснение и пример)


Ошибка агрегирования возникает, когда ошибочно предполагается, что тенденции, наблюдаемые в агрегированных данных, применимы и к отдельным точкам данных.

Самый простой способ понять этот тип предвзятости — взять простой пример.

Пример: смещение агрегирования

Предположим, исследователи хотят понять взаимосвязь между средним количеством лет обучения и средним доходом семьи в определенном штате. Они получают агрегированные данные по 4 разным городам штата и рассчитывают корреляцию между средним образованием и средним доходом семьи.

Оказывается, корреляция между средним количеством лет обучения и средним доходом домохозяйства составляет 0,9632 . Это очень положительный коэффициент корреляции.

Исследователи даже создают диаграмму рассеяния, чтобы визуализировать взаимосвязь между средним количеством лет обучения и средним доходом семьи:

Даже не рассматривая отдельные данные, они могли бы опубликовать отчет, в котором утверждается, что продолжительность обучения сильно положительно коррелирует с доходом домохозяйства.

Предположим, однако, что год спустя к нам приходит новый исследователь и получает данные об отдельных домохозяйствах в том же наборе городов. Предположим, она создает следующую диаграмму рассеяния данных:

Смещение агрегирования

Она вычисляет корреляцию между двумя переменными и обнаруживает, что на самом деле она составляет всего 0,1788 — все еще положительная корреляция, но далеко не такая сильная, как корреляция, обнаруженная предыдущими исследователями.

Оказывается, когда данные были агрегированы, они отражали истинную тенденцию между образованием и доходом, которая имела место на индивидуальном уровне.

Фактически, если мы посмотрим на диаграмму рассеяния по городам, связь между образованием и доходом на самом деле будет отрицательной!

Пример систематической ошибки агрегирования в статистике

Эффекты систематической ошибки агрегирования

Предвзятость агрегирования довольно часто возникает в исследованиях просто потому, что часто ошибочно предполагается, что тенденции, возникающие на агрегированном уровне, должны также проявляться и на индивидуальном уровне. К сожалению, это не всегда так, как показывает предыдущий пример.

Предвзятость агрегирования может привести к тому, что результаты исследования сделают неправильные выводы и введут в заблуждение. Этот тип предвзятости особенно вреден, когда речь идет о корреляциях между переменными.

Даже если корреляция между совокупными данными двух переменных положительна, основная корреляция между двумя переменными на уровне отдельного наблюдения может фактически быть следующей:

  • Отрицательная корреляция
  • Нет корреляции
  • Положительная корреляция

Чтобы избежать предвзятости такого типа, необходимо проводить исследования с использованием отдельных точек данных, а не совокупных точек данных, чтобы вы могли обнаружить истинную взаимосвязь между двумя переменными.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *