이상치가 평균에 어떤 영향을 미치나요?
통계에서 데이터 세트의 평균은 평균값입니다. 이는 데이터 세트의 “중심”이 어디에 있는지 알려 주기 때문에 알아두면 유용합니다. 간단한 공식을 사용하여 계산됩니다.
평균 = (관찰치 합계) / (관찰치 수)
예를 들어 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.
[1, 4, 5, 6, 7]
데이터 세트의 평균은 (1+4+5+6+7) / (5) = 4.6 입니다.
그러나 평균은 유용하고 계산하기 쉽지만 이상치의 영향을 받을 수 있다는 단점이 있습니다. 특히, 데이터 세트가 작을수록 이상값이 평균에 더 많은 영향을 미칠 수 있습니다.
이를 설명하기 위해 다음과 같은 전형적인 예를 고려하십시오.
열 명의 남자가 술집에 앉아 있다. 남성 10명의 평균 소득은 5만 달러다. 갑자기 한 남자가 나오더니 빌 게이츠가 들어온다. 오늘날 술집에 있는 10명의 남자의 평균 수입은 4천만 달러입니다.
이 예에서는 이상치(Bill Gates)가 평균에 어떻게 큰 영향을 미칠 수 있는지 보여줍니다.
크고 작은 특이치
특이치는 비정상적으로 작거나 비정상적으로 커서 평균에 영향을 줄 수 있습니다. 이전 예에서 빌 게이츠는 비정상적으로 높은 소득을 갖고 있어 평균이 오해를 불러일으켰습니다.
그러나 비정상적으로 낮은 값도 평균에 영향을 줄 수 있습니다. 이를 설명하기 위해 다음 예를 고려하십시오.
10명의 학생이 시험을 치르고 다음과 같은 성적을 받았습니다.
[0, 88, 90, 92, 94, 95, 95, 96, 97, 99]
평균 점수는 84.6 입니다.
그러나 데이터세트에서 점수 “0”을 제거하면 평균 점수는 94 가 됩니다.
학생의 비정상적으로 낮은 점수는 전체 데이터 세트의 평균을 낮춥니다.
표본 크기 및 특이치
데이터 세트의 표본 크기가 작을수록 이상값이 평균에 영향을 미칠 가능성이 더 높습니다.
예를 들어, 0점을 받은 한 학생을 제외하고 모든 학생이 최소 90점 이상을 받은 100개의 시험 점수 데이터 세트가 있다고 가정해 보겠습니다.
[ 0 , 90, 90, 92, 94, 95, 95, 96, 97, 99, 94, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 , 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94 , 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99, 93, 90, 90, 92, 94, 95, 95, 96, 97, 99 ]
평균은 93.18 입니다. 데이터 세트에서 “0”을 제거하면 평균은 94.12 가 됩니다. 이는 비교적 작은 차이입니다. 이는 극단적인 특이치라도 데이터 세트가 충분히 크면 최소한의 효과만 갖는다는 것을 보여줍니다.
이상치를 처리하는 방법
데이터 세트에 이상값이 있을 수 있다는 우려가 있는 경우 다음과 같은 몇 가지 옵션이 있습니다.
- 이상값이 데이터 입력 오류로 인한 결과가 아닌지 확인하세요. 때로는 개인이 데이터를 저장하는 동안 단순히 잘못된 데이터 값을 입력하는 경우도 있습니다. 이상값이 있는 경우 먼저 값을 올바르게 입력했는지, 오류가 아닌지 확인하세요.
- 이상값에 새 값을 할당합니다 . 이상값이 데이터 입력 오류의 결과인 것으로 판명되면 데이터 세트의 평균이나 중앙값 과 같은 새 값을 할당하기로 결정할 수 있습니다.
- 이상치를 제거합니다. 값이 실제로 이상값인 경우 전체 분석에 상당한 영향을 미칠 경우 해당 값을 제거하도록 선택할 수 있습니다. 최종 보고서나 분석에서 이상치를 제거했다는 사실을 꼭 언급하세요.
중앙값을 사용하세요
데이터 세트의 “중심”을 찾는 또 다른 방법은 데이터 세트의 모든 개별 값을 가장 작은 것부터 가장 큰 것까지 정렬하고 중앙값을 찾아 얻은 중앙값을 사용하는 것입니다.
중앙값은 계산 방식으로 인해 이상값의 영향을 덜 받고 이상값이 있을 때 분포의 중심 위치를 더 잘 포착합니다.
예를 들어, 특정 동네에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.
평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다. 따라서 중앙값은 평균보다 해당 동네 주택의 “전형적인” 면적을 더 잘 포착합니다.
추가 자료: