다중 선형 회귀 분석의 5가지 가정


다중 선형 회귀는 다중 예측 변수와 반응 변수 사이의 관계를 이해하는 데 사용할 수 있는 통계 방법입니다.

그러나 다중 선형 회귀를 수행하기 전에 먼저 다섯 가지 가정이 충족되는지 확인해야 합니다.

1. 선형 관계: 각 예측 변수와 반응 변수 사이에는 선형 관계가 있습니다.

2. 다중 공선성 없음: 예측 변수 중 어느 것도 서로 높은 상관 관계가 없습니다.

3. 독립성: 관측치는 독립적입니다.

4. 동분산성: 잔차는 선형 모델의 각 지점에서 일정한 분산을 갖습니다.

5. 다변량 정규성: 모델 잔차가 정규 분포를 따릅니다.

이러한 가정 중 하나 이상이 충족되지 않으면 다중 선형 회귀 분석의 결과를 신뢰할 수 없을 수 있습니다.

이 기사에서는 각 가정에 대한 설명, 가정이 충족되는지 확인하는 방법, 가정이 충족되지 않는 경우 수행할 작업을 제공합니다.

가설 1: 선형 관계

다중 선형 회귀 분석에서는 각 예측 변수와 반응 변수 사이에 선형 관계가 있다고 가정합니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 가장 간단한 방법은 각 예측 변수와 반응 변수의 산점도를 만드는 것입니다.

이를 통해 두 변수 사이에 선형 관계가 있는지 시각적으로 확인할 수 있습니다.

산점도의 점이 대략 직선 대각선을 따라 놓여 있으면 변수 간에 선형 관계가 있을 가능성이 높습니다.

예를 들어, 아래 그래프의 점은 직선에 있는 것처럼 보이며, 이는 이 특정 예측 변수(x)와 반응 변수(y) 사이에 선형 관계가 있음을 나타냅니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

하나 이상의 예측 변수와 반응 변수 사이에 선형 관계가 없는 경우 몇 가지 옵션이 있습니다.

1. 예를 들어 로그 또는 제곱근을 사용하여 예측 변수에 비선형 변환을 적용합니다. 이는 종종 관계를 보다 선형적인 관계로 바꿀 수 있습니다.

2. 모델에 다른 예측변수를 추가합니다. 예를 들어, x 대 y의 도표가 포물선 모양인 경우 모델에 X 2 를 추가 예측 변수로 추가하는 것이 합리적일 수 있습니다.

3. 모델에서 예측변수를 제거합니다. 가장 극단적인 경우, 특정 예측 변수와 반응 변수 사이에 선형 관계가 없으면 모델에 예측 변수를 포함하는 것이 유용하지 않을 수 있습니다.

가설 2: 다중 공선성이 없습니다

다중 선형 회귀에서는 예측 변수 중 어느 것도 서로 높은 상관 관계가 없다고 가정합니다.

하나 이상의 예측 변수가 높은 상관 관계를 갖는 경우 회귀 모델은 다중 공선성으로 인해 모델의 계수 추정치를 신뢰할 수 없게 됩니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 가장 간단한 방법은 각 예측 변수에 대한 VIF 값을 계산하는 것입니다.

VIF 값은 1부터 시작하며 상한선이 없습니다. 일반적으로 5* 이상의 VIF 값은 잠재적인 다중 공선성을 나타냅니다.

다음 튜토리얼에서는 다양한 통계 소프트웨어에서 VIF를 계산하는 방법을 보여줍니다.

*때때로 연구자들은 연구 분야에 따라 VIF 값 10을 대신 사용합니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

하나 이상의 예측 변수의 VIF 값이 5보다 큰 경우 이 문제를 해결하는 가장 쉬운 방법은 VIF 값이 높은 예측 변수를 간단히 제거하는 것입니다.

또는 모델의 각 예측 변수를 유지하려는 경우 상관 관계가 높은 예측 변수를 처리하도록 설계된 능선 회귀 , 올가미 회귀 또는 부분 최소 제곱 회귀와 같은 다른 통계 방법을 사용할 수 있습니다.

가설 3: 독립성

다중 선형 회귀에서는 데이터 세트의 각 관측치가 독립적이라고 가정합니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 가장 간단한 방법은 Durbin-Watson 테스트를 수행하는 것입니다. 이는 잔차(따라서 관측값)가 자기상관을 나타내는지 여부를 알려주는 공식적인 통계 테스트입니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

이 가정이 어떻게 위반되는지에 따라 몇 가지 옵션이 있습니다.

  • 양의 계열 상관관계를 얻으려면 종속변수 및/또는 독립변수의 시차를 모델에 추가하는 것을 고려하십시오.
  • 음의 계열 상관관계의 경우 변수가 과도 하게 지연되지 않았는지 확인하세요.
  • 계절 상관관계를 확인하려면 모델에 계절 모형을 추가하는 것이 좋습니다.

가설 4: 등분산성

다중 선형 회귀 분석에서는 잔차가 선형 모델의 각 점에서 일정한 분산을 갖는다고 가정합니다. 그렇지 않은 경우 잔차는 이분산성(heteroscedasticity) 으로 인해 어려움을 겪습니다.

회귀 분석에 이분산성이 있으면 회귀 모델의 결과를 신뢰할 수 없게 됩니다.

특히, 이분산성은 회귀 계수 추정치의 분산을 증가시키지만 회귀 모델은 이를 설명하지 않습니다. 이로 인해 회귀 모델에서는 실제로는 그렇지 않은데도 모델의 항이 통계적으로 유의하다고 주장할 가능성이 훨씬 더 높아집니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 가장 쉬운 방법은 예측 값에 대해 표준화된 잔차의 플롯을 만드는 것입니다.

회귀 모델을 데이터 세트에 맞춘 후에는 x축에 반응 변수의 예측 값을 표시하고 x축에 모델의 표준화된 잔차를 표시하는 산점도를 만들 수 있습니다. 와이.

산점도의 점이 추세를 나타내는 경우 이분산성이 존재하는 것입니다.

다음 차트는 이분산성이 문제가 되지 않는 회귀 모델의 예를 보여줍니다.

표준화된 잔차는 명확한 패턴 없이 0 주위에 흩어져 있습니다.

다음 차트는 이분산성이 문제가 되는 회귀 모델의 예를 보여줍니다.

예측값이 증가함에 따라 표준화된 잔차가 어떻게 점점 더 퍼지는지 확인하세요. 이 “원뿔” 모양은 이분산성의 전형적인 표시입니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

이분산성을 수정하는 세 가지 일반적인 방법이 있습니다.

1. 반응 변수를 변환합니다. 이분산성을 처리하는 가장 일반적인 방법은 응답 변수의 모든 값에 대한 로그, 제곱근 또는 세제곱근을 취하여 응답 변수를 변환하는 것입니다. 이로 인해 이분산성이 사라지는 경우가 많습니다.

2. 반응 변수를 재정의합니다. 반응 변수를 재정의하는 한 가지 방법은 원시 값 대신 비율을 사용하는 것입니다. 예를 들어, 인구 규모를 사용하여 도시의 꽃집 수를 예측하는 대신 인구 규모를 사용하여 1인당 꽃집 수를 예측할 수 있습니다.

대부분의 경우, 꽃집 자체의 수가 아닌 1인당 꽃집 수를 측정하므로 대규모 인구 내에서 자연적으로 발생하는 변동성이 줄어듭니다.

3. 가중 회귀를 사용하십시오. 이분산성을 수정하는 또 다른 방법은 적합치의 분산을 기반으로 각 데이터 포인트에 가중치를 할당하는 가중 회귀를 사용하는 것입니다.

본질적으로 이는 분산이 높은 데이터 포인트에 낮은 가중치를 부여하여 잔차 제곱을 줄입니다. 적절한 가중치를 사용하면 이분산성 문제를 해결할 수 있습니다.

관련 항목 : R에서 가중 회귀를 수행하는 방법

가정 4: 다변량 정규성

다중 선형 회귀에서는 모델 잔차가 정규 분포를 따른다고 가정합니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 두 가지 일반적인 방법이 있습니다.

1. QQ 플롯을 사용 하여 가설을 시각적으로 검증합니다 .

분위수-분위수 플롯의 약자인 QQ 플롯은 모델의 잔차가 정규 분포를 따르는지 여부를 결정하는 데 사용할 수 있는 플롯 유형입니다. 그림의 점들이 대략 직선 대각선을 형성하면 정규성 가정이 충족됩니다.

다음 QQ 플롯은 대략 정규 분포를 따르는 잔차의 예를 보여줍니다.

그러나 아래 QQ 플롯은 잔차가 직선 대각선에서 명확하게 벗어나는 경우의 예를 보여 주며 이는 정규 분포를 따르지 않음을 나타냅니다.

2. Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre 또는 D’Agostino-Pearson과 같은 공식 통계 검정을 사용하여 가설을 검증합니다.

이러한 검정은 표본 크기가 클 경우 민감합니다. 즉, 표본 크기가 매우 클 경우 잔차가 정규 분포가 아니라는 결론을 내리는 경우가 많습니다. 이것이 바로 이 가설을 검증하기 위해 QQ 플롯과 같은 그래픽 방법을 사용하는 것이 더 쉬운 이유입니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

정규성 가정이 충족되지 않으면 다음과 같은 몇 가지 옵션이 있습니다.

1. 먼저 데이터에 정규성 가정을 위반하는 극단적인 이상값이 없는지 확인합니다.

2. 그런 다음 반응 변수의 모든 값에 대해 제곱근, 로그 또는 세제곱근을 취하는 등 반응 변수에 비선형 변환을 적용할 수 있습니다. 이는 종종 모델 잔차의 보다 정규 분포를 초래합니다.

추가 리소스

다음 자습서에서는 다중 선형 회귀 및 해당 가정에 대한 추가 정보를 제공합니다.

다중 선형 회귀 소개
회귀 분석의 이분산성에 대한 가이드
회귀 분석의 다중 공선성과 VIF에 대한 가이드

다음 자습서에서는 다양한 통계 소프트웨어를 사용하여 다중 선형 회귀를 수행하는 방법에 대한 단계별 예를 제공합니다.

Excel에서 다중 선형 회귀를 수행하는 방법
R에서 다중 선형 회귀를 수행하는 방법
SPSS에서 다중 선형 회귀를 수행하는 방법
Stata에서 다중 선형 회귀를 수행하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다