생략변수 편향: 정의 및 예


생략변수 편향은 관련 설명변수가 회귀모델 에 포함되지 않을 때 발생하며, 이로 인해 모델에 있는 하나 이상의 설명변수의 계수에 편향이 발생할 수 있습니다.

생략된 변수는 다음 두 가지 이유 중 하나로 인해 회귀 모델에서 제외되는 경우가 많습니다.

1. 변수에 대한 데이터를 사용할 수 없습니다.

2. 설명변수가 반응변수 에 미치는 영향은 알려져 있지 않습니다.

생략된 변수가 모델 계수를 실제로 왜곡하려면 다음 두 가지 조건이 충족되어야 합니다.

1. 생략된 변수는 모델의 하나 이상의 설명 변수와 상관관계가 있어야 합니다.

2. 생략된 변수는 모델의 반응 변수와 상관관계가 있어야 합니다.

생략된 변수 편향의 효과

두 개의 설명 변수 A와 B와 응답 변수 Y가 있다고 가정합니다. A를 유일한 설명 변수로 사용하여 단순 선형 회귀 모델을 적합하고 모델에서 B를 제외한다고 가정합니다.

B가 A 상관되어 있고 Y와 상관되어 있으면 A의 계수 추정치에 편향이 발생합니다. 다음 다이어그램은 관계의 성격에 따라 A의 계수 추정치가 어떻게 편향되는지 보여줍니다. 비:

생략된 변수 편향

예: 생략된 변수 편향

면적이 부동산 가격에 미치는 영향을 연구하려고 하므로 다음과 같은 단순 선형 회귀 모델을 적용한다고 가정합니다.

주택 가격 = B 0 + B 1 (제곱 면적)

추정된 모델이 다음과 같다고 가정합니다.

주택 가격 = 40,203.91 + 118.31(제곱 면적)

평방피트에 대한 계수를 해석하는 방식 은 평방피트가 1단위씩 추가로 증가할 때마다 주택 가격이 평균 $118.31 상승하는 것과 관련이 있다는 것입니다.

그러나 면적과 강한 음의 상관관계가 있고 부동산 가격과 강한 음의 상관관계가 있는 것으로 밝혀진 설명 변수 연령을 제외한다고 가정해 보겠습니다. 이 변수는 모델에 있어야 하지만 그렇지 않습니다. 따라서 평방 피트에 대한 계수 추정치는 편향될 가능성이 높습니다.

나이는 모델의 설명 변수와 반응 변수 모두와 음의 상관 관계가 있으므로 평방 피트에 대한 계수 추정치는 양의 편향을 가질 것으로 예상됩니다.

생략된 변수 편향이 있는 양의 편향

거주지의 연령에 대한 데이터를 찾은 다음 이를 모델에 포함한다고 가정합니다. 그러면 모델은 다음과 같습니다.

주택 가격 = B 0 + B 1 (제곱 면적) + B 2 (연령)

추정된 모델이 다음과 같다고 가정합니다.

주택 가격 = 123,426.20 + 81.06(제곱 면적) – 1,291.04(연령)

평방피트에 대한 계수 추정값이 크게 감소했습니다. 이는 이전 모델에서 양의 편향이 있었음 을 의미합니다.

이 모델에서 평방 피트 계수를 해석하는 방법 은 연령이 일정하다고 가정할 때 평방 피트가 1단위씩 추가로 증가할 때마다 평균 주택 가격이 $81.06 증가하는 것과 연관되어 있다는 것입니다.

생략변수 편향에 대해 어떻게 해야 할까요?

불행하게도 생략된 변수 편향은 일반적으로 회귀 모델에 특정 변수가 포함 되어야 하지만 해당 변수에 대한 데이터를 사용할 수 없거나 해당 변수와 응답 변수 간의 관계를 알 수 없기 때문에 현실 세계에서 자주 발생합니다.

가능하다면 설명 변수와 반응 변수 사이의 실제 관계를 이해할 수 있도록 회귀 모델에 관련된 모든 설명 변수를 포함시키려고 노력해야 합니다.

이전 부동산 가격 예시에서 보았듯이 모델에서 관련 설명변수를 제외하면 모델 해석에 큰 영향을 미칠 수 있습니다.

추가 리소스

숨겨진 변수란 무엇입니까?
혼란스러운 변수는 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다