표준화 잔차란 무엇입니까?


잔차는 회귀 모델 에서 관찰된 값과 예측된 값 간의 차이입니다.

다음과 같이 계산됩니다.

잔차 = 관측값 – 예측값

관측값을 플롯하고 적합 회귀선을 겹쳐 놓으면 각 관측치 의 잔차는 관측치와 회귀선 사이의 수직 거리가 됩니다.

통계 잔차의 예

회귀 모델에서 이상값을 식별하기 위해 자주 사용하는 잔차 유형 중 하나를 표준화된 잔차 라고 합니다.

다음과 같이 계산됩니다.

r i = ei / s( ei ) = ei / RSE√ 1-h ii

금:

  • e i : i 번째 잔기
  • RSE: 모델의 잔차 표준 오차
  • h ii : i번째 관측치의 상승

실제로는 절댓값이 3보다 큰 표준화 잔차를 이상값으로 간주하는 경우가 많습니다.

이것이 반드시 모델에서 이러한 관찰을 제거한다는 의미는 아니지만, 최소한 데이터 입력 오류나 다른 이상한 사건의 결과가 아닌지 확인하기 위해 더 자세히 연구해야 합니다.

참고: 때때로 표준화된 잔류물을 “사내 연구 잔류물”이라고도 합니다.

예: 표준화 잔차 계산 방법

총 12개의 관측값이 포함된 다음 데이터 세트가 있다고 가정합니다.

통계 소프트웨어(예: R , Excel , Python , Stata 등)를 사용하여 이 데이터 세트에 선형 회귀선을 맞추면 가장 적합한 선은 다음과 같습니다.

y = 29.63 + 0.7553x

이 선을 사용하면 X 값을 기반으로 각 Y 값에 대한 예측 값을 계산할 수 있습니다. 예를 들어 첫 번째 관찰의 예측 값은 다음과 같습니다.

y = 29.63 + 0.7553*(8) = 35.67

그런 다음 이 관찰에 대한 잔차를 다음과 같이 계산할 수 있습니다.

잔차 = 관측값 – 예측값 = 41 – 35.67 = 5.33

이 과정을 반복하여 각 관측값에 대한 잔차를 찾을 수 있습니다.

잔차 계산 방법

또한 통계 소프트웨어를 사용하여 모델의 잔차 표준 오차가 4.44 임을 확인할 수 있습니다.

그리고 이 튜토리얼의 범위를 벗어나더라도 소프트웨어를 사용하여 각 관찰에 대한 레버리지 통계(h ii )를 찾을 수 있습니다.

그런 다음 다음 공식을 사용하여 각 관측값에 대한 표준화된 잔차를 계산할 수 있습니다.

r i = e i / RSE√ 1-h ii

예를 들어, 첫 번째 관측치에 대한 표준화 잔차는 다음과 같이 계산됩니다.

r i = 5.33 / 4.44√ 1-0.27 = 1.404

이 과정을 반복하여 각 관측값에 대한 표준화된 잔차를 찾을 수 있습니다.

표준화 잔차 계산의 예

그런 다음 표준화된 잔차에 대한 예측 값의 빠른 산점도를 만들어 표준화된 잔차 중 절대값 임계값 3을 초과하는지 시각적으로 확인할 수 있습니다.

표준화된 잔차와 예측 값의 플롯

그래프에서 표준화된 잔차 중 어느 것도 절대값 3을 초과하지 않는다는 것을 알 수 있습니다. 따라서 어떤 관측값도 이상값으로 나타나지 않습니다.

어떤 경우에는 연구자들이 표준화된 잔차의 절대값이 2를 초과하는 관측치를 이상치로 간주한다는 점에 유의해야 합니다.

작업 중인 분야와 작업 중인 특정 문제에 따라 이상값에 대한 임계값으로 절대값 2 또는 3을 사용할지 여부는 사용자에게 달려 있습니다.

추가 리소스

다음 자습서에서는 표준화된 잔차에 대한 추가 정보를 제공합니다.

통계에서 잔차란 무엇입니까?
Excel에서 표준화 잔차를 계산하는 방법
R에서 표준화 잔차를 계산하는 방법
Python에서 표준화된 잔차를 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다