선형 회귀의 네 가지 가정


선형 회귀는 두 변수 x와 y 사이의 관계를 이해하는 데 사용할 수 있는 유용한 통계 방법입니다. 그러나 선형 회귀를 수행하기 전에 먼저 다음 네 가지 가정이 충족되는지 확인해야 합니다.

1. 선형 관계: 독립 변수 x와 종속 변수 y 사이에는 선형 관계가 있습니다.

2. 독립성: 잔차는 독립입니다. 특히 시계열 데이터의 연속 잔차 간에는 상관관계가 없습니다.

3. 동분산성: 잔차는 x의 각 수준에서 일정한 분산을 갖습니다.

4. 정규성: 모델 잔차가 정규 분포를 따릅니다.

이러한 가정 중 하나 이상이 충족되지 않으면 선형 회귀 결과가 신뢰할 수 없거나 오해의 소지가 있을 수 있습니다.

이 기사에서는 각 가정에 대한 설명, 가정이 충족되는지 확인하는 방법, 가정이 충족되지 않는 경우 수행할 작업을 제공합니다.

가설 1: 선형 관계

설명

선형 회귀의 첫 번째 가정은 독립 변수 x와 독립 변수 y 사이에 선형 관계가 있다는 것입니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 가장 간단한 방법은 x 대 y의 산점도를 만드는 것입니다. 이를 통해 두 변수 사이에 선형 관계가 있는지 시각적으로 확인할 수 있습니다. 도표의 점이 직선을 따라 있을 수 있는 것으로 나타나면 두 변수 사이에 일종의 선형 관계가 있으며 이 가정이 충족되는 것입니다.

예를 들어, 아래 그래프의 점은 직선에 있는 것으로 나타나 x와 y 사이에 선형 관계가 있음을 나타냅니다.

그러나 아래 그래프에서는 x와 y 사이에 선형 관계가 없는 것으로 보입니다.

그리고 이 그래프에서는 x와 y 사이에 명확한 관계가 있는 것처럼 보이지만 선형 관계는 아닌 것 같습니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

x와 y 값의 산점도를 생성하고 두 변수 사이에 선형 관계가 없음 을 확인하면 몇 가지 옵션이 있습니다.

1. 독립변수 및/또는 종속변수에 비선형 변환을 적용합니다. 일반적인 예로는 독립 변수 및/또는 종속 변수의 로그, 제곱근 또는 역수를 취하는 것이 있습니다.

2. 모델에 또 다른 독립변수를 추가합니다. 예를 들어, x 대 y의 도표가 포물선 모양을 갖는 경우 모델에 X 2 를 추가 독립 변수로 추가하는 것이 합리적일 수 있습니다.

가설 2: 독립성

설명

선형 회귀의 다음 가정은 잔차가 독립적이라는 것입니다. 이는 시계열 데이터로 작업할 때 특히 중요합니다. 이상적으로는 연속된 잔차 사이에 추세가 있는 것을 원하지 않습니다. 예를 들어, 잔류물은 시간이 지남에 따라 지속적으로 증가해서는 안 됩니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 유효한지 테스트하는 가장 간단한 방법은 잔차 대 시간의 도표인 잔차의 시계열 도표를 보는 것입니다. 이상적으로 대부분의 잔차 자기상관은 0 주위의 95% 신뢰대 내에 속해야 하며, 이는 n 의 제곱근에서 약 +/- 2에 위치합니다. 여기서 n은 표본 크기입니다. Durbin-Watson 테스트를 사용하여 이 가정이 충족되는지 공식적으로 테스트할 수도 있습니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

이 가정이 어떻게 위반되는지에 따라 몇 가지 옵션이 있습니다.

  • 양의 계열 상관관계를 얻으려면 종속변수 및/또는 독립변수의 시차를 모델에 추가하는 것을 고려하십시오.
  • 음의 계열 상관관계의 경우 변수가 과도 하게 지연되지 않았는지 확인하세요.
  • 계절 상관관계를 확인하려면 모델에 계절 모형을 추가하는 것이 좋습니다.

가설 3: 동분산성

설명

선형 회귀의 다음 가정은 잔차가 x의 각 수준에서 일정한 분산을 갖는다는 것입니다. 이것을 동분산성 이라고 합니다. 그렇지 않은 경우 잔차는 이분산성(heteroscedasticity) 으로 인해 어려움을 겪습니다.

회귀분석에 이분산성이 존재하면 분석 결과를 믿기 어려워집니다. 특히, 이분산성은 회귀 계수 추정치의 분산을 증가시키지만 회귀 모델은 이를 설명하지 않습니다. 이로 인해 회귀 모델에서는 실제로는 그렇지 않은데도 모델의 항이 통계적으로 유의하다고 주장할 가능성이 훨씬 더 높아집니다.

이 가정이 충족되는지 확인하는 방법

이분산성을 탐지하는 가장 쉬운 방법은 적합치/잔차 도표를 만드는 것입니다.

회귀선을 데이터 세트에 맞춘 후에는 해당 적합치의 잔차에 대한 모델의 적합치를 보여주는 산점도를 만들 수 있습니다. 아래 산점도는 이분산성이 존재하는 잔차와 적합치의 일반적인 도표를 보여줍니다.

적합치가 증가함에 따라 잔차가 어떻게 점점 더 퍼지는지 확인하세요. 이 “원뿔” 모양은 이분산성의 전형적인 표시입니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

이분산성을 수정하는 세 가지 일반적인 방법이 있습니다.

1. 종속변수를 변환합니다. 일반적인 변환은 단순히 종속 변수의 로그를 취하는 것입니다. 예를 들어, 인구 규모(독립 변수)를 사용하여 도시의 꽃집 수(종속 변수)를 예측하는 경우 대신 인구 규모를 사용하여 마을의 꽃집 수에 대한 로그를 예측할 수 있습니다. 원래 종속변수가 아닌 종속변수의 로그를 사용하면 이분산성이 사라지는 경우가 많습니다.

2. 종속변수를 재정의합니다. 종속변수를 재정의하는 일반적인 방법은 원시 값 대신 비율을 사용하는 것입니다. 예를 들어, 인구 규모를 사용하여 도시의 꽃집 수를 예측하는 대신 인구 규모를 사용하여 1인당 꽃집 수를 예측할 수 있습니다. 대부분의 경우, 꽃집 자체의 수가 아닌 1인당 꽃집 수를 측정하므로 대규모 인구 내에서 자연적으로 발생하는 변동성이 줄어듭니다.

3. 가중 회귀를 사용하십시오. 이분산성을 수정하는 또 다른 방법은 가중 회귀를 사용하는 것입니다. 이 유형의 회귀는 적합치의 분산을 기반으로 각 데이터 포인트에 가중치를 할당합니다. 본질적으로 이는 분산이 더 높은 데이터 포인트에 낮은 가중치를 부여하여 잔차 제곱을 줄입니다. 적절한 가중치를 사용하면 이분산성 문제를 해결할 수 있습니다.

가설 4: 정규성

설명

선형 회귀의 다음 가정은 잔차가 정규 분포를 따른다는 것입니다.

이 가정이 충족되는지 확인하는 방법

이 가정이 충족되는지 확인하는 두 가지 일반적인 방법이 있습니다.

1. QQ 플롯을 사용 하여 가설을 시각적으로 검증합니다 .

분위수-분위수 플롯의 약자인 QQ 플롯은 모델의 잔차가 정규 분포를 따르는지 여부를 결정하는 데 사용할 수 있는 플롯 유형입니다. 그림의 점들이 대략 직선 대각선을 형성하면 정규성 가정이 충족됩니다.

다음 QQ 플롯은 대략 정규 분포를 따르는 잔차의 예를 보여줍니다.

그러나 아래 QQ 플롯은 잔차가 직선 대각선에서 명확하게 벗어나는 경우의 예를 보여 주며 이는 정규 분포를 따르지 않음을 나타냅니다.

2. Shapiro-Wilk, Kolmogorov-Smironov, Jarque-Barre 또는 D’Agostino-Pearson과 같은 공식 통계 테스트를 사용하여 정규성 가정을 확인할 수도 있습니다. 그러나 이러한 검정은 표본 크기가 클 경우 민감합니다. 즉, 표본 크기가 클 경우 잔차가 정규 분포가 아니라는 결론을 내리는 경우가 많습니다. 이것이 바로 이 가설을 검증하기 위해 QQ 플롯과 같은 그래픽 방법을 사용하는 것이 종종 더 쉬운 이유입니다.

이 가정이 존중되지 않으면 어떻게 해야 할까요?

정규성 가정이 충족되지 않으면 다음과 같은 몇 가지 옵션이 있습니다.

  • 먼저, 이상값이 분포에 큰 영향을 미치지 않는지 확인하세요. 이상값이 있는 경우 데이터 입력 오류가 아닌 실제 값인지 확인하세요.
  • 그런 다음 독립 변수 및/또는 종속 변수에 비선형 변환을 적용할 수 있습니다. 일반적인 예로는 독립 변수 및/또는 종속 변수의 로그, 제곱근 또는 역수를 취하는 것이 있습니다.

추가 자료:

단순 선형 회귀 소개
회귀 분석의 이분산성 이해
R에서 QQ 플롯을 생성하고 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다