숨겨진 변수: 정의 및 예


숨겨진 변수는 통계 분석에 포함되지 않지만 분석 내 두 변수 간의 관계에 영향을 미치는 변수입니다.

숨겨진 변수는 변수 간의 실제 관계를 숨길 수도 있고, 변수 간에 관계가 존재한다는 잘못된 인상을 줄 수도 있습니다. 본질적으로 숨겨진 변수는 연구 결과를 오해하게 만들 수 있습니다.

관찰 연구에서는 숨겨진 변수가 데이터와 변수 간의 관계에 대한 비정상적인 해석으로 이어질 수 있다는 점을 인식하는 것이 중요합니다. 실험 연구에서는 숨겨진 변수의 위험을 (가능한 한 많이) 제거하는 방식으로 실험을 설계하는 것이 중요합니다.

숨겨진 변수의 예

다음 예는 연구에 숨겨진 변수가 존재할 수 있는 여러 사례를 보여줍니다.

실시예 1

연구원은 아이스크림 판매와 상어 공격이 강한 양의 상관관계가 있다는 사실을 발견했습니다. 이것은 아이스크림 판매 증가로 인해 상어 공격이 더 많이 발생한다는 것을 의미합니까?

그럴 것 같지 않습니다. 가장 가능성이 높은 원인은 변덕스러운 날씨가 숨어 있기 때문입니다. 날씨가 따뜻해지면 아이스크림을 사먹는 사람이 늘어나고, 바다로 나가는 사람도 늘어납니다.

실시예 2

한 연구원은 지난 몇 년간 팝콘 소비와 교통사고 건수가 밀접한 상관관계가 있다는 사실을 발견했습니다. 팝콘을 많이 먹으면 교통사고가 더 많이 발생한다는 뜻인가요?

그럴 것 같지 않습니다. 가장 가능성이 높은 원인은 가변적인 숨어있는 인구 입니다. 인구가 증가함에 따라 팝콘 소비량도 늘어나고, 교통사고 건수도 늘어나고 있다.

실시예 3

자연재해 발생 시 자원봉사자가 많아질수록 피해가 커진다는 연구 결과가 나왔다. 이는 자원봉사자들이 더 많은 피해를 입힌다는 뜻인가요?

그럴 것 같지 않습니다. 가장 가능성 있는 원인은 자연재해의 규모가 다양하기 때문입니다. 자연재해가 커지면 자원봉사자도 늘어나고, 자연재해로 인한 피해도 늘어나게 됩니다.

실시예 4

연구에 따르면 장갑 판매와 스노보드 사고는 밀접한 상관관계가 있는 것으로 나타났습니다. 이것은 장갑이 스노보드 사고를 더 많이 유발한다는 것을 의미합니까?

그럴 것 같지 않습니다. 가장 가능성이 높은 원인은 숨어 있는 가변 온도 입니다. 기온이 낮아지면서 장갑을 구입하는 사람들이 늘어나고, 스노보드를 타러 가는 사람들도 점점 더 많아지고 있습니다.

숨겨진 변수를 식별하는 방법

숨은 변수를 찾아내기 위해서는 연구하고 있는 분야에 대한 전문성을 갖는 것이 도움이 됩니다. 연구에 명시적으로 포함되지 않은 연구 변수 간의 관계에 영향을 미칠 수 있는 잠재적 변수가 무엇인지 알면 잠재적인 숨겨진 변수를 밝힐 수 있습니다.

잠재적인 숨겨진 변수를 식별하는 또 다른 방법은 잔차 그림을 조사하는 것입니다. 잔차에 추세(선형 또는 비선형)가 있는 경우 이는 연구에 포함되지 않은 숨겨진 변수가 어떤 방식으로든 연구 변수에 영향을 미치고 있음을 의미할 수 있습니다.

숨겨진 변수의 위험을 제거하는 방법

관찰 연구에서는 숨겨진 변수의 위험을 제거하는 것이 매우 어려울 수 있습니다. 대부분의 경우, 최선의 방법은 연구에 영향을 미칠 수 있는 잠재적인 숨겨진 변수를 예방하는 것이 아니라 단순히 식별하는 것입니다.

그러나 실험 연구에서는 좋은 실험 설계를 통해 숨겨진 변수의 영향을 크게 제거할 수 있습니다.

예를 들어, 두 알약이 혈압에 서로 다른 영향을 미치는지 알고 싶다고 가정해 보겠습니다. 우리는 식습관 , 흡연 습관 등 숨겨진 변수도 혈압에 영향을 미친다는 것을 알고 있습니다. 따라서 우리는 무작위 설계를 사용하여 이러한 숨겨진 변수를 제어하려고 시도할 수 있습니다. 이는 환자에게 첫 번째 약이나 두 번째 약을 복용하도록 무작위로 할당한다는 의미입니다.

환자를 그룹에 무작위로 할당하기 때문에 숨겨진 변수가 두 그룹에 거의 동일하게 영향을 미칠 것이라고 가정할 수 있습니다. 이는 혈압의 차이가 숨겨진 변수의 영향이 아니라 약에 의한 것일 수 있음을 의미합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다