통계에서 평균을 사용하는 것의 장점과 단점
데이터 세트의 평균 은 데이터 세트의 평균 값을 나타냅니다.
다음과 같이 계산됩니다.
평균 = Σx i / n
금:
- Σ: 합계를 의미하는 기호
- x i : 데이터 세트의 i 번째 관측치
- n: 데이터 세트의 총 관측치 수
데이터 세트의 “중심” 또는 “평균”을 설명하기 위해 평균을 사용하면 두 가지 주요 이점이 있습니다.
장점 1: 평균은 계산 시 데이터 세트의 모든 관측치를 사용합니다. 통계에서는 이는 일반적으로 데이터 세트에서 사용 가능한 모든 정보를 사용한다고 말하기 때문에 좋은 것입니다.
장점 #2: 평균은 계산하고 해석하기 쉽습니다. 평균은 모든 관측치의 합을 총 관측치 수로 나눈 값입니다. 계산하기 쉽고(수동으로도) 해석하기 쉽습니다.
그러나 데이터 세트를 요약하기 위해 평균을 사용하면 두 가지 잠재적인 단점이 있습니다.
단점 #1: 평균은 특이치의 영향을 받습니다. 데이터 세트에 극단적인 특이치가 있는 경우 이는 평균에 영향을 미치고 이를 데이터 세트의 중심에 대한 신뢰할 수 없는 측정값으로 만듭니다.
단점 #2: 평균은 왜곡된 데이터 세트로 인해 오해의 소지가 있을 수 있습니다. 데이터 세트가 왼쪽이나 오른쪽 으로 기울어지면 평균화는 데이터 세트의 중심을 측정하는 데 오해를 불러일으킬 수 있습니다.
다음 예에서는 실제로 이러한 장점과 단점을 보여줍니다.
예 1: 평균 사용의 이점
특정 도시 거주자의 급여를 보여주는 다음과 같은 히스토그램이 있다고 가정합니다.
이 분포는 일반적으로 대칭 이고(가운데로 분할하면 각 절반이 대략 동일해 보임) 이상값이 없으므로 평균은 이 데이터 집합의 중심을 설명하는 유용한 방법입니다.
평균은 $63,000로 나타났으며 이는 대략 분포의 중앙에 있습니다.
이 특정 예에서는 평균화의 두 가지 장점을 모두 사용할 수 있었습니다.
장점 1: 평균은 계산 시 데이터 세트의 모든 관측치를 사용합니다.
분포가 본질적으로 대칭이고 극단적인 이상값이 없었기 때문에 사용 가능한 모든 급여를 사용하여 평균을 계산할 수 있었으며 이를 통해 이 특정 도시의 “평균” 또는 “일반적인” 급여에 대한 좋은 아이디어를 얻을 수 있었습니다.
장점 #2: 평균은 계산하고 해석하기 쉽습니다. $63,000의 평균 급여가 이 도시의 개인의 “평균” 급여를 나타낸다는 것을 이해하기 쉽습니다.
일부 개인은 이보다 훨씬 더 많이 벌고 다른 개인은 훨씬 적게 벌지만, 이 평균 값은 이 도시의 “일반적인” 급여에 대한 좋은 아이디어를 제공합니다.
예 2: 평균 사용의 단점
급여 분포가 매우 왜곡되어 있고 평균 급여와 중간 급여를 모두 계산하기로 결정했다고 가정합니다.
분포 꼬리의 값이 높을수록 평균이 중앙에서 긴 꼬리 쪽으로 이동합니다.
이 예에서 평균은 일반적인 개인이 연간 약 $47,000를 벌고 있음을 알려주는 반면, 중앙값은 일반적인 개인이 연간 약 $32,000를 벌어들이는 것을 말하는데, 이는 일반적인 개인을 훨씬 더 잘 대표합니다.
이 예에서는 분포가 치우쳐 있기 때문에 평균은 이 분포의 “일반적인” 또는 “평균” 값을 제대로 요약하지 못합니다.
또는 특정 거리의 주택 면적에 대한 정보를 포함하는 또 다른 분포가 있고 데이터 세트의 평균과 중앙값을 모두 계산하기로 결정했다고 가정합니다.
평균은 몇 개의 매우 큰 주택의 영향을 받아 훨씬 더 높은 가치를 갖게 됩니다.
이로 인해 평균 평방피트 값이 오해의 소지가 있게 되고 해당 거리에 있는 주택의 “전형적인” 평방피트에 대한 잘못된 측정값을 제공하게 됩니다.
추가 리소스
다음 자습서에서는 통계의 평균 및 중앙값에 대한 추가 정보를 제공합니다.
이상치가 평균에 어떤 영향을 미치나요?
히스토그램의 평균과 중앙값을 추정하는 방법
줄기와 잎 그림의 평균과 중앙값을 찾는 방법