이분산성

이 기사에서는 통계에서 이분산성이 무엇인지 설명합니다. 또한 이분산성의 원인이 무엇인지, 그 결과는 무엇인지, 해결 방법은 무엇인지 알아봅니다.

이분산성이란 무엇입니까?

통계에서 이분산성은 오차 분산이 일정하지 않음을 의미하는 회귀 패턴을 나타내는 특성입니다. 즉, 이분산성 모델은 오류의 분산이 불규칙하다는 것을 의미하며, 이 모델을 이분산성이라고 합니다.

오류(또는 잔차)는 실제 값과 회귀 모델에 의해 추정된 값의 차이로 정의된다는 점을 기억하세요.

e_i=y_i-\widehat{y}_i

회귀 모델을 구축할 때 각 관측값의 오류는 이전 표현식을 사용하여 계산됩니다. 따라서 계산된 오류의 분산이 관측 전체에 걸쳐 일정하지 않고 오히려 변하는 경우 통계 모델은 이분산적입니다.

이분산성과 동분산성

매우 간단해 보일 수도 있지만, 회귀 모델이 이분산성을 나타내지 않는 것이 중요합니다. 왜냐하면 모델의 계산은 잔차의 분산이 일정하다는 사실에 기반을 두고 있기 때문입니다. 실제로 이는 이전 가정 중 하나입니다. 회귀 모델.

White 검정이나 Goldfeld-Quandt 검정과 같이 이분산성을 탐지할 수 있는 특정 통계 검정이 있습니다. 그러나 일반적으로 잔차를 그래프로 표시하면 이분산성을 확인할 수 있습니다.

이분산성의 원인

모델에서 이분산성의 가장 일반적인 원인은 다음과 같습니다.

  • 평균에 비해 데이터 범위가 매우 넓은 경우. 동일한 통계 표본에 매우 큰 값과 매우 작은 값이 있는 경우 얻은 회귀 모델이 이분산적일 가능성이 높습니다.
  • 회귀 모델에서 변수를 생략하면 이분산성이 발생합니다. 논리적으로 관련 변수가 모델에 포함되지 않으면 해당 변수의 변동이 잔차에 포함되며 이는 반드시 수정되지는 않습니다.
  • 마찬가지로, 구조가 변경되면 모델이 데이터 세트에 적합하지 않게 되어 잔차의 분산이 일정하지 않을 수 있습니다.
  • 일부 변수가 다른 설명 변수보다 훨씬 큰 값을 갖는 경우 모델은 이분산성을 가질 수 있습니다. 이 경우 변수를 상대화하여 문제를 해결할 수 있습니다.

그러나 어떤 경우에는 본질적으로 이분산성을 나타낼 가능성이 있습니다. 예를 들어, 개인의 소득을 식품 지출로 모델링하면 부유한 사람들은 가난한 사람들보다 식품 지출에 있어 훨씬 더 큰 변동성을 갖습니다. 왜냐면 부자는 항상 값싼 식당에서 식사를 하는 가난한 사람과는 달리, 때로는 비싼 식당에서 식사를 하고, 때로는 싼 식당에서 식사를 하기 때문입니다. 따라서 회귀모델이 이분산성을 갖기 쉽습니다.

이분산성의 결과

주로 회귀 모델에서 이분산성의 결과는 다음과 같습니다.

  • 오류 제곱의 평균으로 정의되는 최소 제곱 추정기에서는 효율성이 손실됩니다.
  • 최소 제곱 추정량의 공분산 행렬을 계산할 때 오류가 발생합니다.

올바른 이분산성

결과 회귀 모델이 이분산성인 경우 이분산성을 얻기 위해 다음 수정을 시도할 수 있습니다.

  • 독립변수의 자연로그를 계산합니다. 이는 일반적으로 그래프에서 잔차의 분산이 증가할 때 유용합니다.
  • 잔차 그림에 따라 독립변수를 변환하는 또 다른 유형이 더 실용적일 수 있습니다. 예를 들어 그래프가 포물선 모양인 경우 독립 변수의 제곱을 계산하고 해당 변수를 모델에 추가할 수 있습니다.
  • 모델에 다른 변수를 사용할 수도 있습니다. 변수를 제거하거나 추가하면 잔차의 분산을 수정할 수 있습니다.
  • 최소 제곱 기준을 사용하는 대신 가중치 최소 제곱 기준을 사용할 수 있습니다.

이분산성과 동분산성

마지막으로 통계에서 이분산성과 등분산성의 차이점이 무엇인지 살펴 보겠습니다. 이는 우리가 분명히 알아야 할 회귀 모델의 두 가지 개념이기 때문입니다.

회귀 모델의 등분산성은 오차 분산이 일정하다는 것을 나타내는 통계적 특성입니다. 따라서 등분산적 모델은 오류의 분산이 일정하다는 것을 의미합니다.

이분산성과 동분산성의 차이는 잔차 분산의 불변성에서 발견됩니다. 모델 잔차의 분산이 일정하지 않으면 모델이 이분산적임을 의미합니다. 반면, 잔차의 분산이 일정하면 이는 등분산적이라는 것을 의미합니다.

따라서 우리가 구축한 회귀 모델이 등분산적임을 확인해야 합니다. 이렇게 하면 잔차의 분산이 일정하다는 가정이 충족됩니다.

참고: 동분산성

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다