회귀 분석의 이분산성 이해


회귀 분석에서 이분산성 (때때로 이분산성이라고도 함)은 잔차 또는 오류 항의 불평등한 분산을 나타냅니다. 보다 정확하게는 측정값 범위에 걸쳐 잔차 분포에 체계적인 변화가 있는 경우입니다.

이분산성은 OLS(보통 최소 제곱) 회귀에서 잔차가 등분산성 , 즉 일정한 분산을 갖는 모집단에서 나온다고 가정하기 때문에 문제가 됩니다.

회귀분석에 이분산성이 존재하면 분석 결과를 믿기 어려워집니다. 특히, 이분산성은 회귀 계수 추정치의 분산을 증가시키지만 회귀 모델은 이를 설명하지 않습니다.

이로 인해 회귀 모델에서는 실제로는 그렇지 않은데도 모델의 항이 통계적으로 유의하다고 주장할 가능성이 훨씬 더 높아집니다.

이 튜토리얼에서는 이분산성을 감지하는 방법 , 이분산성의 원인, 이분산성 문제를 해결하는 잠재적인 방법을 설명합니다.

이분산성을 감지하는 방법

이분산성을 탐지하는 가장 간단한 방법은 적합치/잔차 도표를 사용하는 것입니다.

회귀선을 데이터 세트에 맞춘 후에는 해당 적합치의 잔차에 대한 모델의 적합치를 보여주는 산점도를 만들 수 있습니다.

아래 산점도는 이분산성이 존재하는 잔차와 적합치의 일반적인 도표를 보여줍니다.

적합치가 증가함에 따라 잔차가 어떻게 점점 더 퍼지는지 확인하세요. 이 “원뿔” 모양은 이분산성을 나타내는 표시입니다.

이분산성의 원인은 무엇입니까?

이분산성은 관측된 데이터 값의 범위가 넓은 데이터 세트에서 자연스럽게 발생합니다. 예를 들어:

  • 미국 100,000명의 연간 소득과 지출이 포함된 데이터 세트를 생각해 보세요. 소득이 낮은 사람들의 경우 해당 지출의 변동성은 더 낮을 것입니다. 왜냐하면 이 사람들은 필수품을 구입할 만큼 충분한 돈만 갖고 있을 가능성이 높기 때문입니다. 소득이 높은 개인의 경우, 원하는 경우 지출할 돈이 더 많기 때문에 해당 지출의 변동성이 더 커집니다. 소득이 더 높은 일부 사람들은 소득의 대부분을 지출하기로 선택하는 반면, 다른 사람들은 검소하고 일부만 지출하기로 선택합니다. 따라서 고소득층 개인의 지출 변동성은 본질적으로 더 높을 것입니다.
  • 미국 내 1,000개 도시의 인구와 꽃집 수가 포함된 데이터세트를 생각해 보세요. 인구 밀도가 낮은 도시의 경우 꽃집이 한두 명만 있는 것이 일반적일 수 있습니다. 그러나 인구가 많은 도시에서는 꽃집의 수가 훨씬 더 다양합니다. 이 마을에는 10~100개의 상점이 있을 수 있습니다. 이는 회귀 분석을 생성하고 인구를 사용하여 꽃집 수를 예측할 때 인구가 많은 도시에 대한 잔차의 변동성이 본질적으로 더 크다는 것을 의미합니다.

일부 데이터 세트는 다른 데이터 세트보다 이분산성에 더 취약합니다.

이분산성을 수정하는 방법

이분산성을 수정하는 세 가지 일반적인 방법이 있습니다.

1. 종속변수 변환

이분산성을 수정하는 한 가지 방법은 어떤 방식으로든 종속 변수를 변환하는 것입니다. 일반적인 변환은 단순히 종속 변수의 로그를 취하는 것입니다.

예를 들어, 인구 규모(독립 변수)를 사용하여 도시의 꽃집 수(종속 변수)를 예측하는 경우 대신 인구 규모를 사용하여 마을의 꽃집 수에 대한 로그를 예측할 수 있습니다.

원래 종속변수가 아닌 종속변수의 로그를 사용하면 이분산성이 사라지는 경우가 많습니다.

2. 종속변수 재정의

이분산성을 수정하는 또 다른 방법은 종속변수를 재정의하는 것입니다. 이를 수행하는 일반적인 방법은 원시 값 대신 종속 변수에 대한 비율을 사용하는 것입니다.

예를 들어, 인구 규모를 사용하여 도시의 꽃집 수를 예측하는 대신 인구 규모를 사용하여 1인당 꽃집 수를 예측할 수 있습니다.

대부분의 경우, 꽃집 자체의 수가 아닌 1인당 꽃집 수를 측정하므로 대규모 인구 내에서 자연적으로 발생하는 변동성이 줄어듭니다.

3. 가중 회귀 사용

이분산성을 수정하는 또 다른 방법은 가중 회귀를 사용하는 것입니다. 이 유형의 회귀는 적합치의 분산을 기반으로 각 데이터 포인트에 가중치를 할당합니다.

본질적으로 이는 분산이 더 높은 데이터 포인트에 낮은 가중치를 부여하여 잔차 제곱을 줄입니다. 적절한 가중치를 사용하면 이분산성 문제를 해결할 수 있습니다.

결론

많은 데이터 세트가 본질적으로 일정하지 않은 분산의 영향을 받기 때문에 이분산성은 회귀 분석과 관련하여 상당히 일반적인 문제입니다.

그러나 적합치 그림과 잔차 그림을 사용하면 이분산성을 쉽게 발견할 수 있습니다.

그리고 종속변수를 변환하거나, 종속변수를 재정의하거나, 가중 회귀를 사용하면 이분산성 문제가 제거될 수 있는 경우가 많습니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다