평균 대 사용 시기 중앙값: 예시 포함

에 의해 벤자민 앤더슨 7월 25, 2023 가이드 댓글 0개

데이터 세트의 평균 은 데이터 세트의 평균 값을 나타냅니다. 다음과 같이 계산됩니다.

평균 = Σx _i / n

금:

중앙값은 데이터 세트의 중간 값을 나타냅니다. 이는 데이터 세트의 모든 관측치를 가장 작은 것부터 가장 큰 것까지 정렬한 다음 중앙값을 식별하여 계산됩니다.

예를 들어, 11개의 관측값이 있는 다음 데이터 세트가 있다고 가정합니다.

데이터세트: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

데이터 세트의 평균은 다음과 같이 계산됩니다.

평균 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54

데이터 세트의 중앙값은 바로 중간에 있는 값으로, 8로 나타납니다.

3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17

데이터 세트의 중심이 어디에 있는지에 대한 평균 및 중앙값 추정치입니다. 그러나 데이터의 특성에 따라 데이터 세트의 중심을 설명하는 데 평균이나 중앙값이 더 유용할 수 있습니다.

분포가 기본적으로 대칭 이고 이상치가 없는 경우 데이터 세트의 중심을 설명하기 위해 평균 을 사용하는 것이 가장 좋습니다.

예를 들어, 특정 도시 거주자의 급여를 보여주는 다음과 같은 분포가 있다고 가정해 보겠습니다.

이 분포는 상당히 대칭적이며(가운데로 분할하면 각 절반이 대략 동일하게 보임) 이상값이 없으므로 평균을 사용하여 이 데이터 집합의 중심을 설명할 수 있습니다.

평균은 $63,000로 나타났으며 이는 대략 분포의 중앙에 있습니다.

분포가 치우쳐 있거나 특이치가 있는 경우에는 중앙값을 사용하는 것이 가장 좋습니다.

왜곡된 데이터:

분포가 치우쳐 있는 경우 중앙값은 평균보다 분포의 중심을 더 잘 설명합니다.

예를 들어, 특정 도시 거주자의 급여 분포가 다음과 같다고 가정해 보겠습니다.

중앙값은 평균보다 거주자의 “일반적인” 급여를 더 잘 반영합니다. 분포 꼬리 부분의 값이 높을수록 평균이 중앙에서 멀어지고 긴 꼬리 쪽으로 밀려나는 경향이 있기 때문입니다.

이 예에서 평균은 일반적인 개인이 연간 약 $47,000를 벌고 있음을 알려주는 반면, 중앙값은 일반적인 개인이 연간 약 $32,000를 벌어들이는 것을 말하는데, 이는 일반적인 개인을 훨씬 더 잘 대표합니다.

특이치:

또한 중앙값은 데이터에 이상값이 있을 때 분포의 중심 위치를 더 잘 포착하는 데 도움이 됩니다. 예를 들어, 특정 거리에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.

평균과 중앙값을 사용해야 하는 경우

평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다. 따라서 중앙값은 해당 거리에 있는 집의 “전형적인” 평방 피트를 평균보다 더 잘 포착합니다.

요약하자면:

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기