다중공선성

에 의해 벤자민 앤더슨 8월 2, 2023 통계 댓글 0개

이 기사에서는 통계의 다중공선성이 무엇인지 설명합니다. 따라서 다중 공선성이 존재하는 경우, 다중 공선성의 결과는 무엇인지, 다중 공선성을 식별하는 방법, 마지막으로 이 문제를 해결하는 방법을 알아봅니다.

다중공선성이란 무엇입니까?

다중공선성은 회귀모형에서 둘 이상의 설명변수가 높은 상관관계를 가질 때 발생하는 상황이다. 즉, 회귀 모형에서 다중 공선성은 모형 내 두 개 이상의 변수 간의 관계가 매우 강한 경우에 존재합니다.

예를 들어, 국가의 기대 수명을 인구 규모 및 GDP와 연관시키는 회귀 모델을 실행하는 경우 이 두 변수는 일반적으로 강한 상관관계가 있기 때문에 인구 규모와 GDP 간에 다중 공선성이 분명히 발생합니다. 상관. 따라서 각 변수가 기대수명에 미치는 영향을 분석하는 것은 어려울 것입니다.

논리적으로 모델의 변수는 항상 서로 상관됩니다. 목가적인 과정에서만 변수들 사이에 상관관계가 발생하지 않습니다. 그러나 우리가 관심을 갖는 것은 변수 간의 상관관계 가 낮다는 점입니다. 그렇지 않으면 각 설명변수가 반응변수에 미치는 영향을 알 수 없습니다.

다중 공선성의 주요 원인은 일반적으로 표본의 작은 크기, 설명 변수 간의 인과 관계 존재 또는 관측치의 낮은 변동성입니다.

다중 공선성의 유형

다중공선성에는 두 가지 유형이 있습니다.

정확한 다중공선성 : 하나 이상의 변수가 다른 변수의 선형 결합인 경우. 이 경우 다중공선형 변수 간의 상관계수는 1입니다.
근사 다중공선성( Approximate Multicollinearity) : 변수 간 선형결합은 없으나, 두 개 이상의 변수 사이의 결정계수가 1에 매우 가까워 상관관계가 높다.

다중 공선성의 결과

상관변수가 추가되면 모델의 회귀계수 값이 변경되므로 결과 회귀 모델을 해석하기가 어렵습니다.
모수 추정의 정밀도가 감소하므로 회귀계수의 표준오차가 증가합니다.
다중공선성을 유발하는 변수 중 일부는 확실히 중복되므로 모형에 포함할 필요가 없습니다.
과적합 상황에 빠질 가능성이 높습니다. 즉, 모델이 과적합되어 예측을 하는 데 유용하지 않습니다.
회귀계수의 p-값의 신뢰성이 떨어집니다. 따라서 회귀 모델에 포함할 변수와 제거할 변수를 결정하는 것이 더 어렵습니다.

다중 공선성을 탐지하는 방법

다중 공선성을 식별하는 한 가지 방법은 상관 행렬을 계산하는 것입니다 . 왜냐하면 모든 변수 간의 상관 계수가 포함되어 있어 한 쌍의 변수가 높은 상관 관계가 있는지 관찰할 수 있기 때문입니다.

➤ 참고: 상관행렬

그러나 상관 행렬을 사용하면 두 변수가 서로 관련되어 있는지 여부만 알 수 있지만 변수 집합 간에 조합이 있는지는 알 수 없습니다. 이를 위해 일반적으로 분산 팽창 계수가 계산됩니다.

분산팽창계수(VIF) 라고도 불리는 분산팽창계수(VIF) 는 각 설명변수에 대해 계산된 통계계수로 주어진 설명변수와 다른 변수의 상관관계를 나타낸다. 구체적으로 그 공식은 다음과 같다.

$FIV_i=\cfrac{1}{1-R_i^2}$

금

$FIV_i$

변수 iy의 분산에 대한 인플레이션 요인입니다.

$R_i^2$

는 변수 i를 종속변수로 하고 나머지 변수를 독립변수로 하는 회귀모형의 결정계수 이다.

따라서 얻은 분산 팽창 인자의 값에 따라 다중 공선성이 있는지 여부를 알 수 있습니다.

VIF = 1 : 분산 팽창 계수가 1이면 종속변수와 다른 변수 간에 상관관계가 없음을 의미합니다.
1 < IVF < 5 : 변수들 사이에 상관관계가 있지만 중간 정도입니다. 원칙적으로 다중공선성을 수정하기 위해 어떤 조치도 취할 필요는 없습니다.
VIF > 5 : 분산팽창계수가 1보다 크다면 모형의 다중공선성이 높다는 의미이므로 이를 해결하기 위한 노력이 필요하다.

실제로 분산 팽창 요인은 일반적으로 컴퓨터 소프트웨어를 사용하여 계산됩니다. 각 변수에 대한 회귀 모델을 만든 다음 수동으로 계수 값을 찾는 데 시간이 오래 걸리기 때문입니다.

올바른 다중 공선성

다음 측정값은 회귀 모델의 다중 공선성 문제를 해결하는 데 유용할 수 있습니다.

표본 크기가 작은 경우 데이터 수를 늘리면 대략적인 다중 공선성이 줄어들 수 있습니다.
다중공선성을 생성하는 모든 변수를 제거합니다. 변수의 상관 관계가 높으면 모델에서 정보가 거의 손실되지 않으며 다중 공선성이 감소합니다.
부분 최소 제곱(PLS) 기준을 적용하여 회귀 모델을 만듭니다.
경우에 따라 다중 공선성을 사용하여 회귀 모델을 그대로 둘 수 있습니다. 예를 들어 예측을 위한 모델을 만들고 해석할 필요가 없는 경우 다중 공선성 패턴이 자체적으로 반복된다는 가정 하에 모델 방정식을 사용하여 새로운 관찰로 종속 변수의 값을 예측할 수 있습니다. 새로운 관찰에서.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기