등분산 가설: 정의 및 예


선형 회귀는 하나 이상의 예측 변수와 반응 변수 간의 관계를 수량화하는 데 사용하는 기술입니다.

선형 회귀 분석의 주요 가정 중 하나는 잔차가 예측 변수의 각 수준에서 일정한 분산을 갖는다는 것입니다.

이 가정이 검증되지 않으면 잔차는 이분산성 문제 를 겪게 됩니다. 이런 일이 발생하면 모델 계수 추정치는 신뢰할 수 없게 됩니다.

상수 분산을 평가하는 방법

회귀 모델의 잔차가 일정한 분산을 갖는지 확인하는 가장 일반적인 방법은 잔차에 대한 적합치의 플롯을 만드는 것입니다.

회귀모델의 적합값을 x축으로 표시하고 그 값의 잔차를 y축으로 맞춰 표시하는 일종의 플롯입니다.

적합치의 각 수준에서 잔차 분포가 거의 동일하면 등분산 가정이 충족된다고 말합니다.

그렇지 않고 잔차의 분산이 체계적으로 증가하거나 감소하면 이 가정이 위반될 가능성이 높습니다.

참고 : 이 유형의 플롯은 회귀 모델을 데이터 세트에 맞춘 후에 만 생성할 수 있습니다.

다음 차트는 상수 분산을 표시하는 적합치 대 잔차 플롯의 예를 보여줍니다.

잔차가 특정 패턴 없이 0 주위에 무작위로 분산되어 있으며 적합치의 각 수준에서 대략 일정한 분산을 유지하는 방법을 확인하세요.

다음 차트는 일정하지 않은 분산을 표시하는 적합치 대 잔차 플롯의 예를 보여줍니다.

적합치가 증가할수록 잔차 분포가 커지는 점에 유의하세요. 이는 변동이 일정하지 않다는 전형적인 신호입니다.

이는 우리의 회귀 모델이 잔차의 일정하지 않은 분산으로 인해 문제가 발생하고 따라서 모델 계수 추정치가 신뢰할 수 없음을 알려줍니다.

상수 분산 위반을 수정하는 방법

분산이 일정하다는 가정이 위반되는 경우 이 문제를 해결하는 가장 일반적인 방법은 다음 세 가지 변환 중 하나를 사용하여 반응 변수를 변환하는 것입니다.

1. 로그 변환: 응답 변수를 y에서 log(y) 로 변환합니다.

2. 제곱근 변환: 응답 변수를 y에서 √y 로 변환합니다.

3. 세제곱근 변환: 응답 변수를 y에서 y 1/3 으로 변환

이러한 변환을 수행하면 일반적으로 분산이 일정하지 않은 문제가 사라집니다.

추가 리소스

다음 자습서에서는 선형 회귀 및 잔차 분석에 대한 추가 정보를 제공합니다.

단순 선형 회귀 소개
다중 선형 회귀 소개
선형 회귀의 네 가지 가정
통계에서 잔차란 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다