통계에서 중앙값이 중요한 이유는 무엇입니까?


중앙값은 모든 값이 가장 작은 값에서 가장 큰 값으로 정렬되었을 때 데이터 세트의 중간 값을 나타냅니다.

예를 들어 다음 데이터 세트의 중앙값은 19입니다.

데이터세트: 3, 4, 11, 15, 19 , 22, 23, 23, 26

또한 중앙값은 데이터 세트의 50번째 백분위수를 나타냅니다. 즉, 데이터 세트에 있는 값의 정확히 절반은 중앙값보다 높고 값의 절반은 아래에 있습니다.

중앙값은 데이터 세트의 “중심”이 어디에 있는지 알려 주기 때문에 계산하는 중요한 지표입니다. 이는 또한 주어진 데이터 세트의 “일반적인” 값에 대한 아이디어를 제공합니다.

예를 들어, 특정 도시에 있는 10,000채의 주택 판매 가격이 포함된 데이터 세트가 있다고 가정해 보겠습니다.

원시 데이터 의 행과 행을 보는 대신 중앙값을 계산하여 해당 도시의 주택 평균 판매 가격을 빠르게 이해할 수 있습니다.

중간 판매 가격이 $271,000라는 것을 알면 정확히 10,000채의 주택 중 절반이 해당 금액보다 높은 가격에 판매되고 나머지 절반은 그보다 낮은 가격에 판매된다는 것을 알 수 있습니다.

이는 또한 이 도시 주택의 “일반적인” 판매 가격에 대한 아이디어를 제공합니다.

중앙값을 사용해야 하는 경우

데이터 세트를 분석할 때 우리는 중심 가치가 어디에 있는지 알고 싶어하는 경우가 많습니다.

통계에는 데이터 세트의 중심을 측정하는 데 사용하는 두 가지 일반적인 측정항목이 있습니다.

  • Mean : 데이터 세트의 평균값
  • 중앙값 : 데이터 세트의 중앙값

다음과 같은 상황에서는 중앙값이 더 유용한 측정값인 것으로 나타났습니다.

  • 분포가 비대칭 인 경우.
  • 분포에 특이치가 포함된 경우.

이를 설명하기 위해 다음 두 가지 예를 고려하십시오.

예 1: 치우친 분포의 중앙값 계산

특정 도시 거주자에 대한 다음과 같은 급여 분포를 고려하십시오.

중앙값은 분포가 오른쪽으로 치우쳐 있기 때문에 평균보다 거주자의 “일반적인” 급여를 더 잘 반영합니다.

이는 분포 오른쪽에 있는 높은 임금이 평균을 분포 중앙에서 멀어지게 한다는 것을 의미합니다.

이 특정 예에서 평균 급여는 $47,000이고 중간 급여는 $32,000입니다. 중앙값은 이 도시의 일반적인 급여를 훨씬 더 잘 대표합니다.

예 2: 이상값이 있는 경우 중앙값 계산

특정 거리에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.

평균과 중앙값을 사용해야 하는 경우

평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다.

중앙값은 이상값의 영향을 받지 않기 때문에 해당 거리에 있는 집의 “일반적인” 평방 피트를 평균보다 더 잘 포착한다는 것을 알 수 있습니다.

요약

다음은 이 기사에서 다룬 주요 내용을 간략하게 요약한 것입니다.

  • 중앙값은 데이터 세트의 중간 값을 나타냅니다.
  • 중앙값은 데이터 세트에서 중앙 값이 어디에 있는지 알려 주기 때문에 중요합니다.
  • 중앙값은 분포가 치우쳐 있거나 특이치가 있는 경우 평균보다 계산하는 데 더 유용한 경향이 있습니다.

추가 리소스

구체적인 예: 평균, 중앙값 및 최빈값 사용
평균 대 사용 시기 중앙값: 예시 포함
통계에서 모드가 중요한 이유는 무엇입니까?

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다