버크슨 편향: 정의 + 예
버크슨 편향은 연구에서 두 변수가 표본 데이터에서는 음의 상관관계가 있는 것처럼 보이지만 전체 모집단 에서는 실제로 양의 상관관계가 있을 때 발생하는 편향 유형입니다.
예를 들어, Tom이 지역 식당에서 햄버거와 밀크셰이크의 품질 사이의 상관관계를 연구하고 싶다고 가정해 보겠습니다.
7개의 다른 레스토랑에 대해 다음 데이터를 수집합니다.
데이터를 시각화하기 위해 산점도를 생성합니다.
이 두 변수 사이의 피어슨 상관계수는 -0.75 로, 이는 강한 음의 상관관계에 해당합니다.
이 발견은 Tom에게는 직관에 반합니다. 그는 좋은 햄버거를 만드는 레스토랑이 좋은 밀크셰이크도 만든다고 생각할 것입니다.
그러나 톰은 형편없는 버거 와 형편없는 밀크셰이크를 만드는 마을의 모든 레스토랑을 단순히 무시한 것으로 밝혀졌습니다.
그가 이 레스토랑을 방문했다면 다음과 같은 데이터 세트를 수집했을 것입니다.
이 데이터 세트에 대한 산점도는 다음과 같습니다.
두 변수 사이의 피어슨 상관계수는 0.46 으로 나타나 다소 강한 양의 상관관계를 나타냅니다.
Tom은 도시 레스토랑 중 일부만을 조사함으로써 버거와 밀크셰이크의 품질 사이에 부정적인 상관관계가 있다는 잘못된 결론을 내렸습니다.
실제로, 이 두 변수 사이에는 (예상대로) 긍정적인 관계가 있는 것으로 나타났습니다. 이는 버크슨 편향의 전형적인 예입니다.
Berkson 편향이 실제로 발생하는 다른 시나리오에 대해서는 다음 예를 참조하세요.
예시 1: 대학 입학
대학에서 GPA 및 ACT 점수가 충분히 높은 학생만 입학한다고 가정해 보겠습니다.
이 두 변수가 양의 상관관계가 있다는 것은 잘 알려져 있지만, 특정 대학에 진학하기로 결정한 학생들 사이에는 음의 상관관계가 있는 것으로 나타났습니다.
그러나 이러한 음의 상관관계는 GPA와 ACT 점수가 모두 높은 학생은 명문 대학에 진학할 수 있고, GPA와 ACT 점수가 모두 낮은 학생은 전혀 입학할 수 없기 때문에 발생합니다.
ACT와 GPA 사이의 상관관계는 모집단에서는 양의 상관관계가 있지만 표본에서는 음의 상관관계가 나타납니다. 이는 버크슨 측의 편견 사례입니다.
예 2: 데이트 선호 사항
많은 사람들은 매력적이고 성격이 좋은 파트너와만 데이트할 것입니다.
현실 세계에서는 이 두 변수 사이에 상관 관계가 없을 수도 있지만 데이트 풀의 범위를 좁힐 때 개인은 매력이 없고 재능이 있는 잠재적인 파트너를 완전히 무시할 수 있습니다. ‘성격이 좋다.
따라서 잠재적인 파트너 사이에는 이 두 변수 사이에 음의 상관관계가 있는 것처럼 보일 수 있습니다. 즉, 매력적인 사람은 성격이 더 나쁘고, 성격이 좋은 사람은 덜 매력적으로 보입니다.
인구 집단에서는 이 두 변수 사이에 상관 관계가 없지만 잠재적 파트너 표본에는 음의 상관 관계가 있는 것으로 보입니다. 이것은 단순히 버크슨의 편견의 사례입니다.
버크슨 편견을 방지하는 방법
연구 조사에서 버크슨 편향을 피하는 가장 확실한 방법은 모집단에서 단순 무작위 표본을 수집하는 것입니다. 즉, 관심 모집단의 각 구성원이 표본에 포함될 확률이 동일하도록 해야 합니다.
예를 들어, 특정 국가의 질병 유병률을 연구하는 경우 병원에서 쉽게 접근할 수 있는 사람들뿐만 아니라 전국에서 개인의 샘플을 수집해야 합니다.
단순 무작위 표본을 사용함으로써 연구자는 표본이 모집단을 대표할 가능성을 최대화할 수 있습니다. 즉, 표본에서 얻은 결과를 전체 모집단에 자신있게 일반화할 수 있습니다.