회귀 분석의 다중 공선성 및 vif 가이드


회귀 분석다중 공선성은 둘 이상의 예측 변수가 서로 높은 상관 관계를 갖고 있어 회귀 모델에서 고유하거나 독립적인 정보를 제공하지 않는 경우에 발생합니다.

변수 간의 상관 정도가 충분히 높으면 회귀 모델을 피팅하고 해석할 때 문제가 발생할 수 있습니다.

예를 들어, 최대 수직 점프 응답 변수 와 다음 예측 변수를 사용하여 회귀 분석을 실행한다고 가정합니다.

  • 신발 사이즈
  • 하루 연습 시간

이 경우 키가 클수록 신발 사이즈가 더 커지는 경향이 있으므로 와 신발 사이즈는 높은 상관관계가 있을 가능성이 높습니다. 이는 이 회귀분석에서 다중공선성이 문제가 될 가능성이 있음을 의미합니다.

이 튜토리얼에서는 다중 공선성이 문제가 되는 이유, 이를 감지하는 방법, 해결 방법을 설명합니다.

다중공선성이 문제가 되는 이유

회귀 분석의 주요 목표 중 하나는 각 예측 변수와 반응 변수 간의 관계를 분리하는 것입니다.

특히 회귀 분석을 수행할 때 모델의 다른 모든 예측 변수가 일정하게 유지된다는 가정 하에 각 회귀 계수를 응답 변수의 평균 변화로 해석합니다.

이는 다른 예측 변수의 값을 변경하지 않고도 주어진 예측 변수의 값을 변경할 수 있다고 가정한다는 의미입니다.

그러나 두 개 이상의 예측 변수가 높은 상관 관계를 갖는 경우 다른 변수를 변경하지 않고 한 변수를 변경하는 것이 어려워집니다.

이로 인해 예측 변수가 동시에 변경되는 경향이 있기 때문에 회귀 모델이 각 예측 변수와 응답 변수 간의 관계를 독립적으로 추정하기가 어렵습니다.

일반적으로 다중 공선성은 두 가지 유형의 문제를 야기합니다.

  • 모델의 계수 추정치(및 계수의 부호까지)는 모델에 포함된 다른 예측 변수에 따라 상당히 변동될 수 있습니다.
  • 계수 추정의 정밀도가 감소하여 p-값을 신뢰할 수 없게 됩니다. 이로 인해 어떤 예측 변수가 실제로 통계적으로 유의미한지 결정하기가 어렵습니다.

다중 공선성을 탐지하는 방법

다중 공선성을 탐지하는 가장 일반적인 방법은 회귀 모델에서 예측 변수 간의 상관 관계 및 상관 강도를 측정하는 분산 팽창 계수(VIF)를 사용하는 것입니다.

VIF(분산팽창계수) 사용

대부분의 통계 소프트웨어에는 회귀 모델에 대한 VIF를 계산하는 기능이 있습니다. VIF 값은 1부터 시작하며 상한이 없습니다. VIF를 해석하는 일반적인 규칙은 다음과 같습니다.

  • 값 1은 주어진 예측 변수와 모델의 다른 예측 변수 사이에 상관 관계가 없음을 나타냅니다.
  • 1과 5 사이의 값은 주어진 예측 변수와 모델의 다른 예측 변수 사이의 중간 정도의 상관 관계를 나타내지만 특별한 주의가 필요할 만큼 심각하지는 않은 경우가 많습니다.
  • 5보다 큰 값은 주어진 예측 변수와 모델의 다른 예측 변수 사이에 잠재적으로 심각한 상관 관계가 있음을 나타냅니다. 이 경우 회귀 결과의 계수 추정치와 p-값은 신뢰할 수 없을 가능성이 높습니다.

예를 들어 농구 선수의 최대 수직 점프를 예측하기 위해 예측 변수 height , shoe size일일 훈련 시간을 사용하여 회귀 분석을 수행하고 다음 결과를 얻는다고 가정해 보겠습니다.

마지막 열에서 신발 사이즈 에 대한 VIF 값이 모두 5보다 크다는 것을 알 수 있습니다. 이는 다중 공선성에 문제가 있을 가능성이 높으며 계수 추정치와 p-값이 신뢰할 수 없을 가능성이 있음을 나타냅니다.

신발 크기에 대한 계수 추정치를 살펴보면 모델은 신발 크기가 한 단위 증가할 때마다 키와 연습 시간이 일정하다고 가정할 때 최대 수직 점프 의 평균 증가가 -0.67498인치임을 알려줍니다.

더 큰 신발을 신은 플레이어의 키가 더 크고 따라서 최대 수직 점프도 더 높을 것으로 예상한다는 점을 고려하면 이는 말이 되지 않는 것 같습니다.

이는 계수 추정값이 다소 터무니없고 직관적이지 않은 것처럼 보이게 만드는 다중 공선성의 전형적인 예입니다.

다중공선성을 해결하는 방법

다중 공선성을 발견한 경우 다음 단계는 어떻게든 이를 해결해야 하는지 결정하는 것입니다. 회귀 분석의 목표에 따라 다중 공선성을 해결할 필요가 없을 수도 있습니다.

알아야 할 사항:

1. 중간 정도의 다중 공선성만 있는 경우 어떤 방식으로든 이를 해결할 필요가 없을 것입니다.

2. 다중 공선성은 서로 상관된 예측 변수에만 영향을 미칩니다. 다중 공선성이 없는 모델의 예측 변수에 관심이 있는 경우 다중 공선성은 문제가 되지 않습니다.

3. 다중 공선성은 계수 추정치와 p-값에 영향을 주지만 예측이나 적합도 통계에는 영향을 미치지 않습니다. 이는 회귀 분석의 주요 목표가 예측을 하는 것이고 예측 변수와 반응 변수 간의 정확한 관계를 이해하는 데 관심이 없다면 다중 공선성을 해결할 필요가 없음을 의미합니다.

다중 공선성을 수정해야 한다고 판단하는 경우 몇 가지 일반적인 해결 방법은 다음과 같습니다.

1. 상관관계가 높은 변수 중 하나 이상을 제거합니다. 이는 대부분의 경우 가장 빠른 솔루션이며 제거하는 변수가 어쨌든 중복되고 모델에 고유하거나 독립적인 정보를 거의 추가하지 않기 때문에 종종 허용되는 솔루션입니다.

2. 예측 변수를 어떤 방식으로 더하거나 빼는 등 어떤 방식으로든 선형적으로 결합합니다. 이렇게 하면 두 변수의 정보를 모두 포함하는 새 변수를 생성할 수 있으며 더 이상 다중 공선성 문제가 발생하지 않습니다.

3. 주성분 분석 이나 부분 최소 제곱(PLS) 회귀 와 같이 상관 관계가 높은 변수를 설명하도록 설계된 분석을 수행합니다. 이러한 기술은 상관관계가 높은 예측 변수를 처리하도록 특별히 설계되었습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다