Stata에서 다중공선성을 테스트하는 방법
회귀분석에서 다중공선성은 두 개 이상의 설명변수가 서로 높은 상관관계를 갖고 있어서 회귀모델에서 고유하거나 독립적인 정보를 제공하지 않는 경우에 발생합니다. 변수 간의 상관 정도가 충분히 높으면 회귀 모델을 피팅하고 해석할 때 문제가 발생할 수 있습니다.
예를 들어 다음 변수를 사용하여 다중 선형 회귀를 실행한다고 가정합니다.
가변 응답: 최대 수직 점프
설명변수: 신발사이즈, 키, 연습시간
이 경우 키가 큰 사람의 신발 사이즈가 더 큰 경향이 있으므로 설명 변수 신발 사이즈와 키는 강한 상관관계가 있을 수 있습니다. 이는 이 회귀분석에서 다중공선성이 문제가 될 가능성이 있음을 의미합니다.
다행스럽게도 회귀 모델에서 설명 변수 간의 상관 관계 및 상관 강도를 측정하는 분산 팽창 계수(VIF) 라는 측정항목을 사용하여 다중 공선성을 탐지할 수 있습니다.
이 튜토리얼에서는 VIF를 사용하여 Stata의 회귀 분석에서 다중 공선성을 탐지하는 방법을 설명합니다.
예: Stata의 다중공선성
이 예에서는 auto 라는 Stata의 내장 데이터 세트를 사용합니다. 데이터세트를 로드하려면 다음 명령어를 사용하세요.
자동으로 사용
regress 명령을 사용하여 가격을 응답 변수로 사용하고 무게, 길이 및 mpg를 설명 변수로 사용하는 다중 선형 회귀 모델을 적합합니다.
회귀 가격 무게 길이 mpg
다음으로 vive 명령을 사용하여 다중 공선성을 테스트하겠습니다.
기운찬
이는 모델의 각 설명 변수에 대한 VIF 값을 생성합니다. VIF 값은 1부터 시작하며 상한이 없습니다. VIF를 해석하는 일반적인 규칙은 다음과 같습니다.
- 값 1은 주어진 설명 변수와 모델의 다른 설명 변수 사이에 상관 관계가 없음을 나타냅니다.
- 1과 5 사이의 값은 주어진 설명 변수와 모델의 다른 설명 변수 사이의 중간 정도의 상관 관계를 나타내지만 특별한 주의가 필요할 만큼 심각하지는 않은 경우가 많습니다.
- 5보다 큰 값은 주어진 설명 변수와 모델의 다른 설명 변수 사이에 잠재적으로 심각한 상관 관계가 있음을 나타냅니다. 이 경우 회귀 결과의 계수 추정치와 p-값은 신뢰할 수 없을 가능성이 높습니다.
가중치와 길이에 대한 VIF 값이 5보다 큰 것을 볼 수 있는데, 이는 회귀 모델에서 다중 공선성이 문제가 될 가능성이 있음을 나타냅니다.
다중공선성을 다루는 방법
다중 공선성을 처리하는 가장 쉬운 방법은 문제 변수 중 하나를 간단히 제거하는 것인 경우가 많습니다. 제거하려는 변수는 어차피 중복될 가능성이 높으며 모델에 고유하거나 독립적인 정보를 거의 추가하지 않기 때문입니다.
제거할 변수를 결정하기 위해 corr 명령을 사용하여 모델의 각 변수 사이의 상관 계수를 표시하는 상관 행렬을 만들 수 있습니다. 다중공선성 문제:
corr 가격 무게 길이 mpg
길이는 무게와 연비 모두와 높은 상관관계가 있고, 반응 변수 가격과 가장 낮은 상관관계가 있음을 알 수 있습니다. 따라서 모델 길이를 제거하면 회귀 모델의 전체 품질을 저하시키지 않고 다중 공선성 문제를 해결할 수 있습니다.
이를 테스트하기 위해 설명 변수로 체중과 mpg만 사용하여 회귀 분석을 다시 실행할 수 있습니다.
회귀 가격 체중 mpg
이 모델의 수정된 R-제곱은 이전 모델의 0.3298 과 비교하여 0.2735 임을 확인할 수 있습니다. 이는 모델의 전반적인 유용성이 약간 감소했음을 나타냅니다. 그런 다음 VIF 명령을 사용하여 VIF 값을 찾을 수 있습니다.
기운찬
두 VIF 값 모두 5보다 작아 다중 공선성이 모델에서 더 이상 문제가 되지 않음을 나타냅니다.