통계에서 중앙값을 사용하는 것의 장점과 단점


중앙값은 데이터 세트의 중간 값을 나타냅니다.

이는 데이터 세트의 모든 관측치를 가장 작은 것부터 가장 큰 것까지 정렬한 다음 중앙값을 식별하여 계산됩니다.

중앙값을 사용하여 데이터 세트의 중심을 설명하면 두 가지 주요 이점이 있습니다.

장점 #1: 중앙값은 이상값의 영향을 받지 않습니다. 중앙값은 데이터 세트의 중간 값만 찾기 때문에 데이터 세트의 양쪽 끝에 있는 매우 작거나 큰 값의 영향을 받지 않습니다.

장점 #2: 중앙값은 편향된 데이터 세트의 중심을 나타내는 좋은 척도입니다. 데이터 세트가 왼쪽이나 오른쪽 으로 치우쳐 있는 경우에도 치우친 분포의 영향을 많이 받는 평균과 달리 중앙값은 여전히 데이터 세트의 중앙 값을 식별합니다.

그러나 중앙값을 사용하여 데이터 세트를 요약하면 두 가지 잠재적인 단점이 있습니다.

단점 #1: 중앙값은 계산 시 데이터 세트의 모든 관측치를 사용하지 않습니다. 통계에서는 일반적으로 데이터 세트의 모든 관측치를 사용할 수 있으면 좋은 것이라고 말합니다. 왜냐하면 데이터에서 사용 가능한 모든 정보를 사용하기 때문입니다. 그러나 중앙값은 데이터 세트에서 매우 작거나 매우 큰 값의 정보를 고려하지 않습니다.

단점 #2: 중앙값은 데이터 세트의 모든 관측치의 합계를 찾는 데 사용할 수 없습니다. 데이터 세트의 평균과 전체 샘플 크기를 알면 데이터 세트에 있는 모든 값의 합계를 찾을 수 있습니다. 그러나 중앙값에 대해서는 동일한 작업을 수행할 수 없습니다.

다음 예에서는 실제로 이러한 장점과 단점을 보여줍니다.

예시 1: 중앙값 사용의 이점

급여 분포가 매우 왜곡되어 있고 평균 급여와 중간 급여를 모두 계산하기로 결정했다고 가정합니다.

평균은 일반적인 개인이 연간 약 47,000달러를 버는 반면, 중앙값은 일반적인 개인이 연간 약 32,000달러를 버는 것을 말하는데, 이는 일반적인 개인을 훨씬 더 잘 대표합니다.

이 예에서 평균은 분포의 오른쪽 꼬리에 있는 가장 높은 값의 영향을 받는 반면 중앙값은 그렇지 않습니다.

또는 특정 거리의 주택 면적에 대한 정보를 포함하는 또 다른 분포가 있고 데이터 세트의 평균과 중앙값을 모두 계산하기로 결정했다고 가정합니다.

평균과 중앙값을 사용해야 하는 경우

평균은 몇 개의 매우 큰 주택의 영향을 받아 훨씬 더 높은 가치를 갖게 됩니다.

그러나 중앙값은 이러한 이상값의 영향을 받지 않으므로 해당 거리에 있는 집의 “일반적인” 평방 피트에 대한 훨씬 더 나은 측정값을 제공합니다.

예시 2: 중앙값 사용의 단점

중앙값의 첫 번째 잠재적인 단점을 떠올려 보겠습니다.

단점 #1: 중앙값은 계산 시 데이터 세트의 모든 관측치를 사용하지 않습니다.

예를 들어, 학급 학생들의 시험 점수 분포를 보여주는 다음 데이터세트가 있다고 가정해 보겠습니다.

등급: 68, 70, 71, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

시험의 평균 점수는 83점입니다.

이제 동일한 데이터 세트가 있지만 가장 낮은 세 가지 시험 점수가 훨씬 낮다고 가정합니다.

등급: 22, 35, 38, 75, 78, 82, 83 , 83, 85, 90, 91, 91, 92

이 분포의 시험 점수 중앙값은 여전히 83점입니다.

이것이 중앙값이 데이터 세트에서 사용 가능한 모든 정보를 사용하지 않는다고 말하는 이유입니다. 이는 단지 위치의 척도일 뿐이므로 데이터의 실제 값을 고려하지 않습니다.

이제 중앙값의 두 번째 잠재적인 단점을 생각해 보겠습니다.

단점 #2: 중앙값은 데이터 세트의 모든 관측치의 합계를 찾는 데 사용할 수 없습니다.

특정 분기에 11명의 직원이 창출한 총 매출에 대한 정보가 포함된 다음 데이터 세트가 있다고 가정합니다.

판매 : 12, 12, 15, 19, 22, 24 , 28, 30, 32, 35, 38

우리는 중앙값이 24이고 총 직원이 11명이라는 것을 알고 있습니다. 그러나 이 정보를 사용하여 모든 직원의 총 매출액을 알 수는 없습니다.

반면, 평균값이 24이고 전체 직원이 11명이라는 것을 안다면 간단히 24에 11을 곱하면 총 매출액 합계는 24 * 11 = 264가 된다는 것을 알 수 있습니다.

참고 : 데이터 분포와 해결하려는 문제에 따라 평균 또는 중앙값을 사용하는 것이 선호되는 측정항목일 수 있습니다.

추가 리소스

다음 자습서에서는 통계의 평균 및 중앙값에 대한 추가 정보를 제공합니다.

이상치가 평균에 어떤 영향을 미치나요?
히스토그램의 평균과 중앙값을 추정하는 방법
줄기와 잎 그림의 평균과 중앙값을 찾는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다