동질성

이 기사에서는 통계에서 등분산성이 무엇인지 설명합니다. 따라서, 등분산성의 정의, 등분산성이 없는 회귀 모델의 원인은 무엇인지, 그리고 이를 수정하는 방법을 찾을 수 있습니다.

동분산성이란 무엇입니까?

동분산성은 설명 변수의 오류가 일정한 분산을 갖는 회귀 모델의 특성입니다. 즉, 회귀모델의 오차분산이 일정할 때 해당 모델은 등분산성을 나타내므로 등분산모델이다.

오류(또는 잔차)는 실제 값과 회귀 모델에 의해 추정된 값의 차이로 정의된다는 점을 기억하세요.

e_i=y_i-\widehat{y}_i

회귀 모델을 실행할 때 각 관측값에 대해 이전 표현식과 다른 값을 얻습니다. 따라서 등분산적 통계 모델은 계산된 오류의 분산이 관측 전체에 걸쳐 일정한 모델입니다.

동분산성과 이분산성

회귀 모델이 등분산성을 나타내는 것이 중요합니다. 실제로 이것은 회귀 모델의 이전 가정 중 하나입니다. 잔차가 등분산성이 아닌 경우에는 등분산성을 얻기 위해 다른 방법으로 모델을 다시 실행하는 것이 좋습니다. 그렇지 않으면 회귀계수 추정이 잘못될 가능성이 높으며 실제로 기각되어야 할 귀무가설을 채택하여 가설검증 의 오류도 발생하게 됩니다.

등분산성이 부족한 원인

모델에 등분산성이 없는 가장 일반적인 원인은 다음과 같습니다.

  • 평균에 비해 데이터 범위가 매우 넓은 경우. 동일한 통계 표본에 매우 큰 값과 매우 작은 값이 있는 경우 얻은 회귀 모델이 등분산적이지 않을 가능성이 높습니다.
  • 회귀 모델에서 변수를 생략하면 등분산성이 부족해집니다. 논리적으로 관련 변수가 모델에 포함되지 않은 경우 해당 변수의 변동은 잔차에 포함되며 반드시 수정되지는 않습니다.
  • 구조가 변경되면 모델이 데이터 세트에 잘 맞지 않을 수 있으므로 잔차의 분산이 일정하지 않습니다.
  • 일부 변수가 다른 설명변수보다 훨씬 큰 값을 갖는 경우 모델은 동분산성을 가지지 못할 수 있습니다. 이 경우 변수를 상대화하여 문제를 해결할 수 있습니다.

그러나 본질적으로 등분산성으로 표현하기 어려운 경우도 있습니다. 예를 들어, 개인의 소득을 식품 지출로 모델링하면 부유한 사람들은 가난한 사람들보다 식품 지출에 있어 훨씬 더 큰 변동성을 갖습니다. 왜냐면 부자는 항상 값싼 식당에서 식사를 하는 가난한 사람과는 달리, 때로는 비싼 식당에서 식사를 하고, 때로는 싼 식당에서 식사를 하기 때문입니다. 따라서 회귀모형에서는 등분산성을 달성하기가 어렵다.

동분산성을 달성하기 위해 데이터 수정

얻은 회귀 모델이 등분산적이지 않은 경우 등분산성을 달성하기 위해 다음 수정을 시도할 수 있습니다.

  • 독립변수의 자연로그를 계산합니다. 이는 일반적으로 그래프에서 잔차의 분산이 증가할 때 유용합니다.
  • 잔차 그림에 따라 독립변수를 변환하는 또 다른 유형이 더 실용적일 수 있습니다. 예를 들어 그래프가 포물선 모양인 경우 독립 변수의 제곱을 계산하고 해당 변수를 모델에 추가할 수 있습니다.
  • 모델에 다른 변수를 사용할 수도 있습니다. 변수를 제거하거나 추가하면 잔차의 분산을 수정할 수 있습니다.
  • 최소 제곱 기준을 사용하는 대신 가중치 최소 제곱 기준을 사용할 수 있습니다.

동분산성과 이분산성

마지막으로 동분산성과 이분산성은 회귀 모델의 두 가지 중요한 통계 개념이기 때문에 차이점이 무엇인지 살펴보겠습니다.

이분산성은 회귀 모델의 잔차가 일정한 분산을 가지지 않아 오류의 변동성이 플롯 전체에서 동일하지 않음을 의미하는 통계적 특성입니다.

동분산성과 이분산성의 차이는 오차 분산의 불변성입니다. 동분산성은 오차 분산이 일정하다는 것을 의미하고, 이분산성은 오차 분산이 일정하지 않음을 의미합니다.

참고: 이분산성

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다