Excel에서 표준화 잔차를 계산하는 방법
잔차는 회귀 모델 에서 관찰된 값과 예측된 값 간의 차이입니다.
다음과 같이 계산됩니다.
잔차 = 관측값 – 예측값
관측값을 플롯하고 적합 회귀선을 겹쳐 놓으면 각 관측치 의 잔차는 관측치와 회귀선 사이의 수직 거리가 됩니다.
회귀 모델에서 이상값을 식별하기 위해 자주 사용하는 잔차 유형 중 하나를 표준화된 잔차 라고 합니다.
다음과 같이 계산됩니다.
r i = ei / s( ei ) = ei / RSE√ 1-h ii
금:
- e i : i 번째 잔기
- RSE: 모델의 잔차 표준 오차
- h ii : i번째 관측치의 상승
실제로는 절댓값이 3보다 큰 표준화된 잔차를 이상치로 간주하는 경우가 많습니다.
이 튜토리얼에서는 Excel에서 표준화된 잔차를 계산하는 방법에 대한 단계별 예를 제공합니다.
1단계: 데이터 입력
먼저 작은 데이터 세트의 값을 Excel에 입력합니다.
2단계: 잔차 계산
다음으로 상단 리본에 있는 데이터 탭으로 이동하여 분석 그룹에서 데이터 분석을 클릭합니다.
이 추가 기능을 아직 설치하지 않은 경우 이 튜토리얼을 확인하여 설치 방법을 알아보세요. 설치가 쉽고 완전 무료입니다.
데이터 분석을 클릭한 후 회귀 옵션을 클릭한 다음 확인을 클릭합니다. 나타나는 새 창에서 다음 정보를 입력하고 확인을 클릭합니다.
각 관측치의 잔차가 결과에 표시됩니다.
이러한 잔차를 복사하여 원본 데이터 옆의 새 열에 붙여넣습니다.
3단계: 레버리지 계산
다음으로, 각 관찰의 영향력을 계산해야 합니다.
다음 이미지는 이를 수행하는 방법을 보여줍니다.
다양한 셀에 사용되는 수식은 다음과 같습니다.
- B14: =횟수(B2:B13)
- B15: = 평균 (B2: B13)
- B16: =DEVSQ(B2:B13)
- E2: =1/$B$14+(B2-$B$15)^2/$B$16
4단계: 표준화된 잔차 계산
마지막으로 다음 공식을 사용하여 표준화된 잔차를 계산할 수 있습니다.
r i = e i / RSE√ 1-h ii
모델의 CSR은 이전 모델의 결과에서 확인할 수 있습니다. 4.44 로 밝혀졌습니다.
따라서 다음 공식을 사용하여 각 관측값에 대한 표준화된 잔차를 계산할 수 있습니다.
결과에서 표준화된 잔차 중 어느 것도 절대값 3을 초과하지 않는다는 것을 알 수 있습니다. 따라서 어떤 관측값도 이상값으로 나타나지 않습니다.
어떤 경우에는 연구자들이 표준화된 잔차의 절대값이 2를 초과하는 관측치를 이상치로 간주한다는 점에 유의해야 합니다.
작업 중인 특정 문제에 따라 절대값 2 또는 3을 이상값의 임계값으로 사용할지 여부는 사용자에게 달려 있습니다.