도구변수: 정의 및 예


종종 통계에서는 한 변수가 다른 변수에 미치는 영향을 추정하려고 합니다. 예를 들어, 다음 사항을 알고 싶을 수 있습니다.

  • 공부하는 시간이 시험 점수에 어떤 영향을 미치나요?
  • 특정 약물이 혈압에 어떤 영향을 미치나요?
  • 스트레스는 심박수에 어떤 영향을 미치나요?

각 시나리오에서 예측 변수가 반응 변수에 영향을 미치는지 여부를 이해하려고 합니다. 그러나 두 변수 사이의 관계에 영향을 미치는 다른 변수가 있는 경우가 많습니다.

예를 들어 특정 약물을 예측 변수로 사용하고 혈압을 반응 변수로 사용한다고 가정해 보겠습니다. 우리는 혈압에 대한 약물의 효과에만 관심이 있습니다.

그러나 운동 시간, 일반적인 식단, 스트레스 수준과 같은 다른 변수도 혈압에 영향을 미칩니다.

따라서 약물을 예측 변수로 사용하고 혈압을 반응 변수로 사용하여 단순 선형 회귀 분석을 수행하면 외부 요인(운동, 다이어트, 스트레스 등)도 영향을 미칠 수 있습니다.

이 문제를 해결하는 한 가지 잠재적인 방법은 도구 변수를 사용하는 것입니다.

도구변수란 무엇인가?

도구 변수는 예측 변수와 상관 관계가 있지만 반응 변수와는 상관 관계가 없는 회귀 분석에 도입된 세 번째 변수입니다. 이 변수를 사용하면 예측 변수가 반응 변수에 미치는 실제 인과 효과를 추정하는 것이 가능해집니다.

예를 들어, 특정 약물이 혈압에 미치는 영향을 추정한다고 가정해 보겠습니다.

이 회귀 분석에 사용할 수 있는 도구 변수의 예로는 개인의 약국 근접성이 있습니다.

이 “근접성” 변수는 개인이 문제의 약물을 복용하는지 여부와 높은 상관관계가 있을 수 있습니다. 왜냐하면 개인이 약국 근처에 살지 않으면 애초에 약을 구할 수 없기 때문입니다.

그러나 “근접성” 변수는 혈압과 어떠한 상관관계도 가져서는 안 됩니다. 혈압과의 유일한 연관성은 예측 변수를 통해서입니다.

가변 악기

실제로 도구 변수를 사용하는 방법은 도구 변수 회귀 (2단계 최소 제곱 회귀 라고도 함)를 수행하는 것입니다.

도구 변수 회귀

도구 변수 회귀(또는 2단계 최소 제곱 회귀)에서는 다음 접근 방식을 사용하여 예측 변수가 반응 변수에 미치는 영향을 추정합니다.

1단계: 도구 변수를 예측 변수로 사용하여 회귀 모델을 적합시킵니다.

특정 예에서는 먼저 다음 회귀 모델을 적합합니다.

특정 약물 = B 0 + B 1 (근접)

그런 다음 특정 약물(cd)에 대한 예측 값이 남게 되며 이를 cd hat 이라고 합니다.

2단계: cd hat 에 대한 예측 값을 사용하여 두 번째 회귀 모델을 피팅합니다.

다음으로 다음 회귀 모델을 적합합니다.

혈압 = B 0 + B 1 (cd 모자 )

CD 모자 의 회귀계수가 통계적으로 유의한 것으로 확인되면, 혈압에 대한 약물의 인과효과가 있다고 말할 수 있다.

이렇게 말할 수 있는 이유는 CD Hat을 만들 때 “근접성”이라는 용어만 사용했고 근접성이 혈압과 상관관계가 있어서는 안 된다는 것을 알고 있기 때문입니다. 두 번째 단계 회귀에서 중요한 상관관계는 특정 약물에 기인할 수 있습니다.

도구변수 사용 시 주의사항

도구변수는 다음 기준을 충족하는 경우에만 사용해야 합니다.

  • 이는 예측변수와 밀접한 상관관계가 있습니다.
  • 반응 변수와 상관 관계가 없습니다.
  • 이는 모델에서 제외된 다른 변수와 상관관계가 없습니다(예: 근접성은 운동, 다이어트 또는 스트레스와 상관관계가 없습니다).

도구 변수가 이 기준을 충족하지 않는 경우 신뢰할 수 없고 편향된 결과를 생성할 가능성이 높으므로 회귀 모델에 사용해서는 안 됩니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다