통계가 탄력적이라는 것은 무엇을 의미하나요?
극단적인 값에 민감하지 않은 통계는 탄력적 이라고 합니다.
탄력적 통계의 두 가지 예는 다음과 같습니다.
- 중앙값
- 사분위수 범위
다음은 유효하지 않은 통계의 예입니다.
- 평균
- 표준편차
- 정돈하다
다음 예에서는 탄력적 통계와 비저항 통계의 차이점을 보여줍니다.
예: 저항성 및 비저항성 통계
다음과 같은 데이터 세트가 있다고 가정합니다.
데이터세트: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29
계산기나 통계 소프트웨어를 사용하여 이 데이터 세트에 대한 다음 보유 통계 값을 계산할 수 있습니다.
- 중앙값: 13
- 사분위간 범위: 13.5
또한 이 데이터세트에 대해 다음과 같은 비복원성 통계 값을 계산할 수도 있습니다.
- 평균: 13.54
- 표준편차: 8.82
- 범위: 27
이제 이 데이터세트에 극단적인 특이치가 추가되었는지 생각해 보세요.
데이터세트: 2, 5, 6, 7, 8, 13, 15, 18, 22, 24, 29, 450
이 데이터 세트에 대한 다음 복원력 통계 값을 다시 계산할 수 있습니다.
- 중앙값: 14
- 사분위간 범위: 15.75
또한 이 데이터세트에 대해 다음과 같은 비복원성 통계 값을 계산할 수도 있습니다.
- 평균: 49.92
- 표준편차: 126.27
- 범위: 448
단순히 데이터 세트에 극단값을 추가하여 비저항 통계가 얼마나 변경되었는지 확인하세요.
반대로 저항군 통계는 거의 변하지 않았습니다. 중앙값과 사분위수 범위는 약간만 변경되었습니다.
복원력 있는 통계를 사용해야 하는 경우
데이터 세트에서 값의 중심 과 분산을 측정하기 위해 가장 일반적으로 사용되는 통계는 각각 평균과 표준편차입니다.
불행하게도 이 두 통계는 모두 극단적인 값에 민감합니다. 따라서 데이터 세트에 이상값이 있는 경우 평균 및 표준 편차는 데이터 세트의 값 분포를 정확하게 설명하지 못합니다.
대신, 이상치가 존재하는 경우 데이터 세트에서 값의 중심과 분산을 측정하기 위해 중앙값과 사분위간 범위를 사용하는 것이 좋습니다. 이 두 통계는 모두 견고 하기 때문입니다.
추가 리소스
이상치가 평균에 어떤 영향을 미치나요?
평균과 중앙값을 사용해야 하는 경우
사분위간 범위와 표준편차를 사용하는 경우