평균 대 사용 시기 중앙값: 예시 포함
데이터 세트의 평균 은 데이터 세트의 평균 값을 나타냅니다. 다음과 같이 계산됩니다.
평균 = Σx i / n
금:
- Σ: 합계를 의미하는 기호
- x i : 데이터 세트의 i 번째 관측치
- n: 데이터 세트의 총 관측치 수
중앙값은 데이터 세트의 중간 값을 나타냅니다. 이는 데이터 세트의 모든 관측치를 가장 작은 것부터 가장 큰 것까지 정렬한 다음 중앙값을 식별하여 계산됩니다.
예를 들어, 11개의 관측값이 있는 다음 데이터 세트가 있다고 가정합니다.
데이터세트: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17
데이터 세트의 평균은 다음과 같이 계산됩니다.
평균 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54
데이터 세트의 중앙값은 바로 중간에 있는 값으로, 8로 나타납니다.
3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17
데이터 세트의 중심이 어디에 있는지에 대한 평균 및 중앙값 추정치입니다. 그러나 데이터의 특성에 따라 데이터 세트의 중심을 설명하는 데 평균이나 중앙값이 더 유용할 수 있습니다.
평균을 사용해야 하는 경우
분포가 기본적으로 대칭 이고 이상치가 없는 경우 데이터 세트의 중심을 설명하기 위해 평균 을 사용하는 것이 가장 좋습니다.
예를 들어, 특정 도시 거주자의 급여를 보여주는 다음과 같은 분포가 있다고 가정해 보겠습니다.
이 분포는 상당히 대칭적이며(가운데로 분할하면 각 절반이 대략 동일하게 보임) 이상값이 없으므로 평균을 사용하여 이 데이터 집합의 중심을 설명할 수 있습니다.
평균은 $63,000로 나타났으며 이는 대략 분포의 중앙에 있습니다.
중앙값을 사용해야 하는 경우
분포가 치우쳐 있거나 특이치가 있는 경우에는 중앙값을 사용하는 것이 가장 좋습니다.
왜곡된 데이터:
분포가 치우쳐 있는 경우 중앙값은 평균보다 분포의 중심을 더 잘 설명합니다.
예를 들어, 특정 도시 거주자의 급여 분포가 다음과 같다고 가정해 보겠습니다.
중앙값은 평균보다 거주자의 “일반적인” 급여를 더 잘 반영합니다. 분포 꼬리 부분의 값이 높을수록 평균이 중앙에서 멀어지고 긴 꼬리 쪽으로 밀려나는 경향이 있기 때문입니다.
이 예에서 평균은 일반적인 개인이 연간 약 $47,000를 벌고 있음을 알려주는 반면, 중앙값은 일반적인 개인이 연간 약 $32,000를 벌어들이는 것을 말하는데, 이는 일반적인 개인을 훨씬 더 잘 대표합니다.
특이치:
또한 중앙값은 데이터에 이상값이 있을 때 분포의 중심 위치를 더 잘 포착하는 데 도움이 됩니다. 예를 들어, 특정 거리에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.
평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다. 따라서 중앙값은 해당 거리에 있는 집의 “전형적인” 평방 피트를 평균보다 더 잘 포착합니다.
요약
요약하자면:
- 평균과 중앙값은 데이터 세트의 “중심”이 어디에 있는지 설명하는 데 사용될 수 있습니다.
- 데이터 값의 분포가 대칭이고 뚜렷한 이상치가 없는 경우 평균을 사용하는 것이 가장 좋습니다.
- 데이터 값의 분포가 치우쳐 있거나 명백한 이상치가 있는 경우에는 중앙값을 사용하는 것이 가장 좋습니다.
추가 리소스
이상치가 평균에 어떤 영향을 미치나요?
히스토그램의 평균과 중앙값을 추정하는 방법
줄기와 잎 그림의 평균과 중앙값을 찾는 방법