통계에서 잔차란 무엇입니까?


잔차는 회귀 분석 에서 관찰된 값과 예측된 값의 차이입니다.

다음과 같이 계산됩니다.

잔차 = 관측값 – 예측값

선형 회귀의 목표는 하나 이상의 예측 변수와 반응 변수 사이의 관계를 수량화하는 것입니다. 이를 위해 선형 회귀는 최소 제곱 회귀선 이라고 하는 데이터에 가장 잘 맞는 선을 찾습니다.

이 선은 데이터 세트의 각 관찰 에 대한 예측을 생성하지만 회귀 선에 의한 예측이 관찰된 값과 정확히 일치할 가능성은 거의 없습니다.

예측값과 관측값의 차이가 잔차입니다. 관측값을 플롯하고 적합 회귀선을 겹쳐 놓으면 각 관측치의 잔차는 관측치와 회귀선 사이의 수직 거리가 됩니다.

통계 잔차의 예

관측값이 회귀선에 의해 예측된 값보다 큰 경우 관측값은 양의 잔차를 갖습니다.

반대로 관측치의 값이 회귀선에 의해 만들어진 예측 값보다 작은 경우 관측치는 음의 잔차를 갖습니다.

양성 또는 음성 잔기

일부 관측값에는 양의 잔차가 있고 다른 관측값에는 음의 잔차가 있지만 모든 잔차의 합은 0이 됩니다.

잔차 계산의 예

총 12개의 관측값이 포함된 다음 데이터 세트가 있다고 가정합니다.

이 데이터 세트에 선형 회귀선을 맞추기 위해 통계 소프트웨어(예: R , Excel , Python , Stata 등)를 사용하면 가장 적합한 선은 다음과 같습니다.

y = 29.63 + 0.7553x

이 선을 사용하면 X 값을 기반으로 각 Y 값에 대한 예측 값을 계산할 수 있습니다. 예를 들어 첫 번째 관찰의 예측 값은 다음과 같습니다.

y = 29.63 + 0.7553*(8) = 35.67

그런 다음 이 관찰에 대한 잔차를 다음과 같이 계산할 수 있습니다.

잔차 = 관측값 – 예측값 = 41 – 35.67 = 5.33

이 과정을 반복하여 각 관측값에 대한 잔차를 찾을 수 있습니다.

잔차 계산 방법

적합 회귀선으로 관측치를 시각화하기 위해 산점도를 생성하면 관측치 중 일부는 선 위에 있고 다른 관측치는 선 아래에 있는 것을 볼 수 있습니다.

잔차 도표가 있는 회귀선

잔류물의 특성

잔류물에는 다음과 같은 특성이 있습니다.

  • 데이터 세트의 각 관측값에는 해당 잔차가 있습니다. 따라서 데이터 세트에 총 100개의 관측치가 포함된 경우 모델은 100개의 예측 값을 생성하므로 총 100개의 잔차가 생성됩니다.
  • 모든 잔차의 합은 0입니다.
  • 잔차의 평균값은 0입니다.

실제로 잔류물은 어떻게 사용됩니까?

실제로 잔차는 회귀 분석에서 세 가지 다른 이유로 사용됩니다.

1. 모델의 적절성을 평가합니다.

적합 회귀선을 생성하면 모든 잔차 제곱의 합인 잔차 제곱합(RSS)을 계산할 수 있습니다. RSS가 낮을수록 회귀 모델이 데이터에 더 잘 맞는 것입니다.

2. 정규성 가정을 확인합니다.

선형 회귀의 주요 가정 중 하나는 잔차가 정규 분포를 따른다는 것입니다.

이 가설을 테스트하기 위해 모델의 잔차가 정규 분포를 따르는지 여부를 결정하는 데 사용할 수 있는 플롯 유형인 QQ 플롯을 만들 수 있습니다.

그림의 점들이 대략 직선 대각선을 형성하면 정규성 가정이 충족됩니다.

QQ 플롯 예

3. 등분산성 가정을 확인합니다.

선형 회귀의 또 다른 주요 가정은 잔차가 x의 각 수준에서 일정한 분산을 갖는다는 것입니다. 이것을 동분산성이라고 합니다. 그렇지 않은 경우 잔차는 이분산성(heteroscedasticity) 으로 인해 어려움을 겪습니다.

이 가정이 충족되는지 확인하기 위해 모델의 예측 값에 대한 잔차를 표시하는 산점도인 잔차 플롯을 만들 수 있습니다.

잔차 및 조정 값 도표화의 예
잔차 및 조정 값 도표화의 예

명확한 추세 없이 잔차가 그래프에서 0 주위에 대략 고르게 분포되어 있으면 일반적으로 등분산성 가정이 충족된다고 말합니다.

추가 리소스

단순 선형 회귀 소개
다중 선형 회귀 소개
선형 회귀의 네 가지 가정
Excel에서 잔차 도표를 만드는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다