Предвзятость берксона: определение + примеры
Систематическая ошибка Берксона — это тип систематической ошибки, которая возникает в исследованиях, когда две переменные кажутся отрицательно коррелирующими в данных выборки, но на самом деле коррелируют положительно в генеральной совокупности .
Например, предположим, что Том хочет изучить корреляцию между качеством гамбургеров и молочных коктейлей в местных ресторанах.
Он выходит и собирает следующие данные о семи различных ресторанах:
Он создает диаграмму рассеяния для визуализации данных:
Коэффициент корреляции Пирсона между этими двумя переменными составляет -0,75 , что соответствует сильной отрицательной корреляции.
Это открытие противоречит Тому: он мог бы подумать, что в ресторанах, где готовят хорошие гамбургеры, готовят и хорошие молочные коктейли.
Однако оказывается, что Том просто проигнорировал все рестораны в городе, где готовят и плохие гамбургеры , и плохие молочные коктейли.
Если бы он посетил эти рестораны, он собрал бы следующий набор данных:
А вот как выглядит диаграмма рассеяния для этого набора данных:
Коэффициент корреляции Пирсона между двумя переменными оказывается равным 0,46 , что представляет собой умеренно сильную положительную корреляцию.
Изучив лишь часть ресторанов города, Том ошибочно пришел к выводу, что существует отрицательная корреляция между качеством гамбургеров и молочных коктейлей.
На самом деле оказывается, что между этими двумя переменными существует положительная связь (как и следовало ожидать). Это классический пример предвзятости Берксона.
См. следующие примеры других сценариев, в которых на практике возникает предвзятость Берксона.
Пример 1: Прием в колледж
Предположим, в колледж принимаются только студенты, имеющие достаточно высокий средний балл и балл ACT.
Хорошо известно, что эти две переменные положительно коррелируют, но оказывается, что среди студентов, решивших поступить в конкретный колледж, между ними наблюдается отрицательная корреляция.
Однако эта отрицательная корреляция возникает только потому, что студенты, имеющие как высокий средний балл, так и ACT, могут поступать в элитный университет, в то время как студенты с низким средним баллом и ACT не принимаются вообще.
Хотя корреляция между ACT и GPA положительна в популяции, в выборке она оказывается отрицательной. Это случай предвзятости со стороны Берксона.
Пример 2: Настройки знакомств
Многие люди будут встречаться только с партнерами, которые одновременно привлекательны и обладают хорошим характером.
В реальном мире корреляция между этими двумя переменными может отсутствовать, но при сужении круга знакомств человек может полностью игнорировать потенциальных партнеров, которые одновременно непривлекательны и одарены. ‘хорошая личность.
Таким образом, среди потенциальных партнеров может оказаться, что существует отрицательная корреляция между этими двумя переменными: более привлекательные люди имеют худшие личности, а люди с лучшими личностями кажутся менее привлекательными.
Хотя корреляции между этими двумя переменными в популяции нет, в выборке потенциальных партнеров, по-видимому, наблюдается отрицательная корреляция. Это просто случай предвзятости Берксона.
Как предотвратить предвзятость Берксона
Самый очевидный способ избежать предвзятости Берксона в научных исследованиях — это собрать простую случайную выборку из населения. Другими словами, убедитесь, что каждый член интересующей совокупности имеет равные шансы быть включенным в выборку.
Например, если вы изучаете распространенность заболеваний в определенной стране, вам необходимо собрать выборку людей со всей страны, а не только тех, с кем легко связаться в больницах.
Используя простую случайную выборку, исследователи могут максимизировать вероятность того, что их выборка будет репрезентативной для населения, а это означает, что они могут уверенно обобщать свои выводы из выборки на всю совокупность.