평균 대 사용 시기 중앙값: 예시 포함


데이터 세트의 평균 은 데이터 세트의 평균 값을 나타냅니다. 다음과 같이 계산됩니다.

평균 = Σx i / n

금:

  • Σ: 합계를 의미하는 기호
  • x i : 데이터 세트의 i 번째 관측치
  • n: 데이터 세트의 총 관측치 수

중앙값은 데이터 세트의 중간 값을 나타냅니다. 이는 데이터 세트의 모든 관측치를 가장 작은 것부터 가장 큰 것까지 정렬한 다음 중앙값을 식별하여 계산됩니다.

예를 들어, 11개의 관측값이 있는 다음 데이터 세트가 있다고 가정합니다.

데이터세트: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

데이터 세트의 평균은 다음과 같이 계산됩니다.

평균 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54

데이터 세트의 중앙값은 바로 중간에 있는 값으로, 8로 나타납니다.

3, 4, 4, 6, 7 , 8, 12, 13, 15, 16, 17

데이터 세트의 중심이 어디에 있는지에 대한 평균 및 중앙값 추정치입니다. 그러나 데이터의 특성에 따라 데이터 세트의 중심을 설명하는 데 평균이나 중앙값이 더 유용할 수 있습니다.

평균을 사용해야 하는 경우

분포가 기본적으로 대칭 이고 이상치가 없는 경우 데이터 세트의 중심을 설명하기 위해 평균 을 사용하는 것이 가장 좋습니다.

예를 들어, 특정 도시 거주자의 급여를 보여주는 다음과 같은 분포가 있다고 가정해 보겠습니다.

이 분포는 상당히 대칭적이며(가운데로 분할하면 각 절반이 대략 동일하게 보임) 이상값이 없으므로 평균을 사용하여 이 데이터 집합의 중심을 설명할 수 있습니다.

평균은 $63,000로 나타났으며 이는 대략 분포의 중앙에 있습니다.

중앙값을 사용해야 하는 경우

분포가 치우쳐 있거나 특이치가 있는 경우에는 중앙값을 사용하는 것이 가장 좋습니다.

왜곡된 데이터:

분포가 치우쳐 있는 경우 중앙값은 평균보다 분포의 중심을 더 잘 설명합니다.

예를 들어, 특정 도시 거주자의 급여 분포가 다음과 같다고 가정해 보겠습니다.

중앙값은 평균보다 거주자의 “일반적인” 급여를 더 잘 반영합니다. 분포 꼬리 부분의 값이 높을수록 평균이 중앙에서 멀어지고 긴 꼬리 쪽으로 밀려나는 경향이 있기 때문입니다.

이 예에서 평균은 일반적인 개인이 연간 약 $47,000를 벌고 있음을 알려주는 반면, 중앙값은 일반적인 개인이 연간 약 $32,000를 벌어들이는 것을 말하는데, 이는 일반적인 개인을 훨씬 더 잘 대표합니다.

특이치:

또한 중앙값은 데이터에 이상값이 있을 때 분포의 중심 위치를 더 잘 포착하는 데 도움이 됩니다. 예를 들어, 특정 거리에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.

평균과 중앙값을 사용해야 하는 경우

평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다. 따라서 중앙값은 해당 거리에 있는 집의 “전형적인” 평방 피트를 평균보다 더 잘 포착합니다.

요약

요약하자면:

  • 평균과 중앙값은 데이터 세트의 “중심”이 어디에 있는지 설명하는 데 사용될 수 있습니다.
  • 데이터 값의 분포가 대칭이고 뚜렷한 이상치가 없는 경우 평균을 사용하는 것이 가장 좋습니다.
  • 데이터 값의 분포가 치우쳐 있거나 명백한 이상치가 있는 경우에는 중앙값을 사용하는 것이 가장 좋습니다.

추가 리소스

이상치가 평균에 어떤 영향을 미치나요?
히스토그램의 평균과 중앙값을 추정하는 방법
줄기와 잎 그림의 평균과 중앙값을 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다