Stata에서 다중공선성을 테스트하는 방법

에 의해 벤자민 앤더슨 7월 29, 2023 가이드 댓글 0개

회귀분석에서 다중공선성은 두 개 이상의 설명변수가 서로 높은 상관관계를 갖고 있어서 회귀모델에서 고유하거나 독립적인 정보를 제공하지 않는 경우에 발생합니다. 변수 간의 상관 정도가 충분히 높으면 회귀 모델을 피팅하고 해석할 때 문제가 발생할 수 있습니다.

예를 들어 다음 변수를 사용하여 다중 선형 회귀를 실행한다고 가정합니다.

가변 응답: 최대 수직 점프

설명변수: 신발사이즈, 키, 연습시간

이 경우 키가 큰 사람의 신발 사이즈가 더 큰 경향이 있으므로 설명 변수 신발 사이즈와 키는 강한 상관관계가 있을 수 있습니다. 이는 이 회귀분석에서 다중공선성이 문제가 될 가능성이 있음을 의미합니다.

다행스럽게도 회귀 모델에서 설명 변수 간의 상관 관계 및 상관 강도를 측정하는 분산 팽창 계수(VIF) 라는 측정항목을 사용하여 다중 공선성을 탐지할 수 있습니다.

이 튜토리얼에서는 VIF를 사용하여 Stata의 회귀 분석에서 다중 공선성을 탐지하는 방법을 설명합니다.

예: Stata의 다중공선성

이 예에서는 auto 라는 Stata의 내장 데이터 세트를 사용합니다. 데이터세트를 로드하려면 다음 명령어를 사용하세요.

자동으로 사용

regress 명령을 사용하여 가격을 응답 변수로 사용하고 무게, 길이 및 mpg를 설명 변수로 사용하는 다중 선형 회귀 모델을 적합합니다.

회귀 가격 무게 길이 mpg

Stata의 다중 선형 회귀 출력

다음으로 vive 명령을 사용하여 다중 공선성을 테스트하겠습니다.

기운찬

Stata의 VIF

이는 모델의 각 설명 변수에 대한 VIF 값을 생성합니다. VIF 값은 1부터 시작하며 상한이 없습니다. VIF를 해석하는 일반적인 규칙은 다음과 같습니다.

값 1은 주어진 설명 변수와 모델의 다른 설명 변수 사이에 상관 관계가 없음을 나타냅니다.
1과 5 사이의 값은 주어진 설명 변수와 모델의 다른 설명 변수 사이의 중간 정도의 상관 관계를 나타내지만 특별한 주의가 필요할 만큼 심각하지는 않은 경우가 많습니다.
5보다 큰 값은 주어진 설명 변수와 모델의 다른 설명 변수 사이에 잠재적으로 심각한 상관 관계가 있음을 나타냅니다. 이 경우 회귀 결과의 계수 추정치와 p-값은 신뢰할 수 없을 가능성이 높습니다.

가중치와 길이에 대한 VIF 값이 5보다 큰 것을 볼 수 있는데, 이는 회귀 모델에서 다중 공선성이 문제가 될 가능성이 있음을 나타냅니다.

다중 공선성을 처리하는 가장 쉬운 방법은 문제 변수 중 하나를 간단히 제거하는 것인 경우가 많습니다. 제거하려는 변수는 어차피 중복될 가능성이 높으며 모델에 고유하거나 독립적인 정보를 거의 추가하지 않기 때문입니다.

제거할 변수를 결정하기 위해 corr 명령을 사용하여 모델의 각 변수 사이의 상관 계수를 표시하는 상관 행렬을 만들 수 있습니다. 다중공선성 문제:

corr 가격 무게 길이 mpg

Stata의 상관 행렬

길이는 무게와 연비 모두와 높은 상관관계가 있고, 반응 변수 가격과 가장 낮은 상관관계가 있음을 알 수 있습니다. 따라서 모델 길이를 제거하면 회귀 모델의 전체 품질을 저하시키지 않고 다중 공선성 문제를 해결할 수 있습니다.

이를 테스트하기 위해 설명 변수로 체중과 mpg만 사용하여 회귀 분석을 다시 실행할 수 있습니다.

회귀 가격 체중 mpg

Stata의 다중 선형 회귀 출력

이 모델의 수정된 R-제곱은 이전 모델의 0.3298 과 비교하여 0.2735 임을 확인할 수 있습니다. 이는 모델의 전반적인 유용성이 약간 감소했음을 나타냅니다. 그런 다음 VIF 명령을 사용하여 VIF 값을 찾을 수 있습니다.

기운찬

Stata의 VIF 값

두 VIF 값 모두 5보다 작아 다중 공선성이 모델에서 더 이상 문제가 되지 않음을 나타냅니다.

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기