잔차/레버리지 차트란 무엇입니까? (정의 & #038; 예)


잔차 대 레버리지 도표는 회귀 모델에서 영향력 있는 관측치를 식별할 수 있는 진단 차트 유형입니다.

통계 프로그래밍 언어 R에서 이러한 유형의 플롯이 나타나는 방식은 다음과 같습니다.

데이터 세트의 각 관측치는 플롯에서 단일 점으로 표시됩니다. x축은 각 포인트의 레버리지를 나타내고 y축은 각 포인트의 표준화된 잔차를 나타냅니다.

레버리지는 특정 관측치가 데이터 세트에서 제거된 경우 회귀 모델의 계수가 변경되는 정도를 나타냅니다.

레버리지가 높은 관측치는 회귀 모델의 계수에 큰 영향을 미칩니다. 이러한 관측치를 제거하면 모델 계수가 크게 변경됩니다.

표준화된 잔차는 관측치에 대한 예측 값과 관측치의 실제 값 간의 표준화된 차이를 나타냅니다.

관측치는 표준화된 잔차의 절대값이 높지만 레버리지의 경우 낮은 값을 가질 수 있다는 점에 유의해야 합니다.

잔차 대 레버리지 그래프를 해석하는 방법

이 그래프의 점이 Cook 거리(빨간색 점선)를 벗어나면 영향력 있는 관측치로 간주됩니다.

앞서 표시된 잔차 대 레버리지 그래프를 참조해 보겠습니다.

위의 예에서 관측치 #10이 Cook 거리 한계에 가장 가깝지만 점선 밖으로 나가지는 않는 것을 볼 수 있습니다. 이는 회귀 모델에 영향을 미치는 지점이 없음을 의미합니다.

그러나 다음과 같은 잔차/레버리지 그래프가 있다고 가정해 보겠습니다.

오른쪽 상단 모서리에 있는 관측치 #1이 빨간색 점선 바깥에 있는 것을 볼 수 있습니다. 이는 영향을 미치는 지점임을 나타냅니다.

이는 데이터 세트에서 이 관측치를 제거하고 회귀 모델을 다시 피팅하면 모델 계수가 크게 변경된다는 것을 의미합니다.

영향력 있는 관찰을 처리하는 방법

모델에 대한 잔차 대 레버리지 도표를 생성하고 하나 이상의 관측치가 영향력 있는 것으로 식별되는 경우 다음과 같은 여러 가지 작업을 수행할 수 있습니다.

1. 관찰 결과가 오류가 아닌지 확인하십시오.

어떤 조치를 취하기 전에 먼저 영향력 있는 관찰이 데이터 입력 오류나 기타 이상한 사건의 결과가 아닌지 확인해야 합니다.

2. 다른 회귀 모델을 피팅해 보세요.

영향력 있는 관측치는 지정한 모형이 데이터에 잘 맞지 않음을 나타낼 수 있습니다. 이 경우 다항식 회귀 모델 이나 비선형 모델을 사용해 볼 수 있습니다.

3. 영향력 있는 댓글을 삭제하세요.

마지막으로, 하나 또는 두 개의 영향력 있는 관측치를 제외하고 지정한 모델이 데이터에 잘 맞는 것으로 나타나면 영향력 있는 관측치를 간단히 제거하기로 결정할 수 있습니다.

추가 리소스

다음 자습서에서는 잔차를 사용하여 회귀 모델의 적합성을 평가하는 방법에 대한 추가 정보를 제공합니다.

통계에서 잔차란 무엇입니까?
표준화 잔차란 무엇입니까?
R에서 진단 플롯을 해석하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다