통계에서 영향력 있는 관찰은 무엇입니까?
통계에서 영향력 있는 관측치는 제거될 때 회귀 모델의 계수 추정치를 크게 변경하는 데이터 세트의 관측치입니다.
관측값의 영향을 측정하는 가장 일반적인 방법은 Cook의 거리를 사용하는 것입니다. 이는 i 번째 관측값이 제거될 때 회귀 모델의 모든 적합값이 얼마나 변경되는지를 정량화합니다.
일반적으로 Cook 거리가 1보다 큰 관측치는 높은 활용 관측치로 간주됩니다.
다음 예에서는 잠재적으로 영향력 있는 관측치를 탐지하기 위해 주어진 데이터 세트에 대한 Cook의 거리를 계산하고 해석하는 방법을 보여줍니다.
예: 영향력 있는 관측치 탐지
14개의 값을 가진 다음 데이터 세트가 있다고 가정합니다.
이제 간단한 선형 회귀 모델을 적합하다고 가정합니다. 회귀 결과는 아래와 같습니다.
통계 소프트웨어를 사용하여 각 관찰에 대한 Cook의 거리에 대해 다음 값을 계산할 수 있습니다.
마지막 관측값은 Cook의 거리에 대해 1보다 훨씬 큰 값을 가지며 이는 영향력 있는 관측값임을 나타냅니다.
데이터 세트에서 이 값을 제거하고 새로운 단순 선형 회귀 모델을 피팅한다고 가정합니다. 이 모델의 출력은 다음과 같습니다.
절편과 x에 대한 회귀 계수가 모두 크게 변경되었습니다. 이는 데이터 세트에서 영향력 있는 관측치를 제거하면 적합 회귀 모델이 완전히 변경되었음을 알 수 있습니다.
다음 그래프는 두 적합 회귀 방정식 간의 차이를 보여줍니다.
단일 영향력 있는 관측치가 회귀선을 얼마나 변경하는지 확인하세요. 이 관찰을 제거함으로써 데이터에 훨씬 더 가깝게 맞는 회귀선을 찾을 수 있었습니다.
코멘트
잠재적으로 영향력이 있는 관측치를 식별 하려면 Cook의 거리를 사용해야 한다는 점에 유의하는 것이 중요합니다. 그러나 관찰이 영향력이 있다고 해서 반드시 데이터 세트에서 제거되어야 한다는 의미는 아닙니다.
먼저, 관찰 결과가 데이터 입력 오류나 기타 이상한 사건의 결과가 아닌지 확인해야 합니다. 합법적인 값으로 판명되면 다음 방법 중 하나로 처리하기로 결정할 수 있습니다.
- 데이터세트에서 제거하세요.
- 데이터세트에 남겨두세요.
- 평균이나 중앙값과 같은 대체 값으로 바꾸세요.
특정 시나리오에 따라 이러한 옵션 중 하나가 다른 옵션보다 더 적합할 수 있습니다.
실제로 요리사의 거리를 계산하는 방법
다음 튜토리얼에서는 Python 및 R에서 주어진 데이터세트에 대해 Cook의 거리를 계산하는 방법을 설명합니다.