다중공선성

이 기사에서는 통계의 다중공선성이 무엇인지 설명합니다. 따라서 다중 공선성이 존재하는 경우, 다중 공선성의 결과는 무엇인지, 다중 공선성을 식별하는 방법, 마지막으로 이 문제를 해결하는 방법을 알아봅니다.

다중공선성이란 무엇입니까?

다중공선성은 회귀모형에서 둘 이상의 설명변수가 높은 상관관계를 가질 때 발생하는 상황이다. 즉, 회귀 모형에서 다중 공선성은 모형 내 두 개 이상의 변수 간의 관계가 매우 강한 경우에 존재합니다.

예를 들어, 국가의 기대 수명을 인구 규모 및 GDP와 연관시키는 회귀 모델을 실행하는 경우 이 두 변수는 일반적으로 강한 상관관계가 있기 때문에 인구 규모와 GDP 간에 다중 공선성이 분명히 발생합니다. 상관. 따라서 각 변수가 기대수명에 미치는 영향을 분석하는 것은 어려울 것입니다.

논리적으로 모델의 변수는 항상 서로 상관됩니다. 목가적인 과정에서만 변수들 사이에 상관관계가 발생하지 않습니다. 그러나 우리가 관심을 갖는 것은 변수 간의 상관관계 가 낮다는 점입니다. 그렇지 않으면 각 설명변수가 반응변수에 미치는 영향을 알 수 없습니다.

다중 공선성의 주요 원인은 일반적으로 표본의 작은 크기, 설명 변수 간의 인과 관계 존재 또는 관측치의 낮은 변동성입니다.

다중 공선성의 유형

다중공선성에는 두 가지 유형이 있습니다.

  • 정확한 다중공선성 : 하나 이상의 변수가 다른 변수의 선형 결합인 경우. 이 경우 다중공선형 변수 간의 상관계수는 1입니다.
  • 근사 다중공선성( Approximate Multicollinearity) : 변수 간 선형결합은 없으나, 두 개 이상의 변수 사이의 결정계수가 1에 매우 가까워 상관관계가 높다.

다중 공선성의 결과

  • 상관변수가 추가되면 모델의 회귀계수 값이 변경되므로 결과 회귀 모델을 해석하기가 어렵습니다.
  • 모수 추정의 정밀도가 감소하므로 회귀계수의 표준오차가 증가합니다.
  • 다중공선성을 유발하는 변수 중 일부는 확실히 중복되므로 모형에 포함할 필요가 없습니다.
  • 과적합 상황에 빠질 가능성이 높습니다. 즉, 모델이 과적합되어 예측을 하는 데 유용하지 않습니다.
  • 회귀계수의 p-값의 신뢰성이 떨어집니다. 따라서 회귀 모델에 포함할 변수와 제거할 변수를 결정하는 것이 더 어렵습니다.

다중 공선성을 탐지하는 방법

다중 공선성을 식별하는 한 가지 방법은 상관 행렬을 계산하는 것입니다 . 왜냐하면 모든 변수 간의 상관 계수가 포함되어 있어 한 쌍의 변수가 높은 상관 관계가 있는지 관찰할 수 있기 때문입니다.

참고: 상관행렬

그러나 상관 행렬을 사용하면 두 변수가 서로 관련되어 있는지 여부만 알 수 있지만 변수 집합 간에 조합이 있는지는 알 수 없습니다. 이를 위해 일반적으로 분산 팽창 계수가 계산됩니다.

분산팽창계수(VIF) 라고도 불리는 분산팽창계수(VIF) 는 각 설명변수에 대해 계산된 통계계수로 주어진 설명변수와 다른 변수의 상관관계를 나타낸다. 구체적으로 그 공식은 다음과 같다.

FIV_i=\cfrac{1}{1-R_i^2}

FIV_i

변수 iy의 분산에 대한 인플레이션 요인입니다.

R_i^2

는 변수 i를 종속변수로 하고 나머지 변수를 독립변수로 하는 회귀모형의 결정계수 이다.

따라서 얻은 분산 팽창 인자의 값에 따라 다중 공선성이 있는지 여부를 알 수 있습니다.

  • VIF = 1 : 분산 팽창 계수가 1이면 종속변수와 다른 변수 간에 상관관계가 없음을 의미합니다.
  • 1 < IVF < 5 : 변수들 사이에 상관관계가 있지만 중간 정도입니다. 원칙적으로 다중공선성을 수정하기 위해 어떤 조치도 취할 필요는 없습니다.
  • VIF > 5 : 분산팽창계수가 1보다 크다면 모형의 다중공선성이 높다는 의미이므로 이를 해결하기 위한 노력이 필요하다.

실제로 분산 팽창 요인은 일반적으로 컴퓨터 소프트웨어를 사용하여 계산됩니다. 각 변수에 대한 회귀 모델을 만든 다음 수동으로 계수 값을 찾는 데 시간이 오래 걸리기 때문입니다.

올바른 다중 공선성

다음 측정값은 회귀 모델의 다중 공선성 문제를 해결하는 데 유용할 수 있습니다.

  • 표본 크기가 작은 경우 데이터 수를 늘리면 대략적인 다중 공선성이 줄어들 수 있습니다.
  • 다중공선성을 생성하는 모든 변수를 제거합니다. 변수의 상관 관계가 높으면 모델에서 정보가 거의 손실되지 않으며 다중 공선성이 감소합니다.
  • 부분 최소 제곱(PLS) 기준을 적용하여 회귀 모델을 만듭니다.
  • 경우에 따라 다중 공선성을 사용하여 회귀 모델을 그대로 둘 수 있습니다. 예를 들어 예측을 위한 모델을 만들고 해석할 필요가 없는 경우 다중 공선성 패턴이 자체적으로 반복된다는 가정 하에 모델 방정식을 사용하여 새로운 관찰로 종속 변수의 값을 예측할 수 있습니다. 새로운 관찰에서.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다