표준편차 사용의 장점과 단점


데이터 세트의 표준 편차는 평균값과 개별 값의 일반적인 편차를 측정하는 방법입니다.

s 로 표시되는 표본 표준 편차를 계산하는 공식은 다음과 같습니다.

s = √ Σ(x i – x̄) 2 / (n – 1)

금:

  • Σ : 합계를 뜻하는 기호
  • x i : 데이터 세트의 i 번째
  • : 표본의 평균
  • n : 표본 크기

데이터 세트의 값 분포를 설명하기 위해 표준 편차를 사용하면 두 가지 주요 이점이 있습니다.

장점 1: 표준 편차는 계산 시 데이터 세트의 모든 관측치를 사용합니다. 통계에서는 일반적으로 데이터 세트에서 사용 가능한 모든 “정보”를 사용하기 때문에 데이터 세트의 모든 관찰을 사용하여 계산을 수행할 수 있는 것이 좋다고 말합니다.

장점 #2: 표준편차는 해석하기 쉽습니다 . 표준 편차는 데이터 세트의 “일반적인” 관찰이 평균 값에서 얼마나 떨어져 있는지에 대한 좋은 아이디어를 제공하는 단일 값입니다.

그러나 표준편차를 사용하는 데에는 다음과 같은 큰 단점이 있습니다.

단점 #1: 표준편차는 이상값의 영향을 받을 수 있습니다 . 데이터 세트에 극단적인 이상값이 있으면 표준 편차 값이 부풀려져 데이터 세트의 값 분포에 대해 잘못된 생각을 줄 수 있습니다.

다음 예에서는 표준 편차 사용의 장점과 단점에 대한 자세한 정보를 제공합니다.

장점 #1: 표준편차는 모든 관측치를 사용합니다.

학급 학생들의 시험 점수 분포를 보여주는 다음과 같은 데이터세트가 있다고 가정해 보겠습니다.

등급: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

계산기나 통계 소프트웨어를 사용하여 이 데이터 세트의 표본 표준 편차가 8.46임을 알 수 있습니다.

이 예에서 표준 편차를 사용하면 데이터 세트에서 가능한 모든 관찰을 사용하여 값의 일반적인 “분포”를 찾을 수 있다는 이점이 있습니다.

대조적으로, 이 데이터 세트의 값 분포를 측정하기 위해 사분위수 범위와 같은 다른 측정항목을 사용할 수 있습니다.

계산기를 사용하여 사분위수 범위가 17.5임을 알 수 있습니다. 이는 데이터 세트에 있는 값의 중간 50% 사이의 차이를 나타냅니다.

이제 데이터 세트의 가장 낮은 값을 훨씬 더 낮게 변경한다고 가정합니다.

등급: 22, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

계산기를 사용하여 표본 표준편차가 18.37임을 알 수 있습니다.

그러나 사분위수 범위는 여전히 17.5입니다. 왜냐하면 중간 50% 값에는 아무런 영향도 미치지 않기 때문입니다.

이는 다른 분산 측정값과 달리 표본 표준 편차가 계산 시 데이터세트의 모든 관측치를 고려한다는 것을 보여줍니다.

장점 #2: 표준편차는 해석하기 쉽습니다.

학급 학생들의 시험 점수 분포를 보여주는 다음 데이터세트를 떠올려 보세요.

등급: 68, 70, 71, 75, 78, 82, 83, 83, 85, 90, 91, 91, 92

우리는 계산기를 사용하여 이 데이터 세트의 표본 표준편차가 8.46 임을 알아냈습니다.

이는 단순히 “일반적인” 시험 점수의 편차가 평균 시험 점수에서 약 8.46임을 의미하므로 해석하기 쉽습니다.

반면, 다른 분산 측정값은 해석하기가 쉽지 않습니다.

예를 들어, 변동 계수는 표본 평균에 대한 표준 편차의 비율을 나타내는 또 다른 분산 측정값입니다.

변동계수: s/x̄

이 예에서 평균 시험 점수는 81.46이므로 변동 계수는 다음과 같이 계산됩니다: 8.46 / 81.46 = 0.104 .

이는 표본 평균에 대한 표본 표준편차의 비율을 나타내며, 이는 여러 데이터 세트에 걸친 값의 분포를 비교하는 데 유용할 수 있지만 그 자체를 지표로 해석하기에는 그리 간단하지 않습니다.

단점 #1: 표준편차는 특이치의 영향을 받을 수 있습니다.

한 회사에서 직원 10명의 급여 정보(천 달러 단위)가 포함된 다음 데이터 세트가 있다고 가정합니다.

급여 : 44, 48, 57, 68, 70, 71, 73, 79, 84, 94

급여의 표본 표준편차는 약 15.57 입니다.

이제 완전히 동일한 데이터 세트가 있지만 최고 급여가 훨씬 더 높다고 가정해 보겠습니다.

급여 : 44, 48, 57, 68, 70, 71, 73, 79, 84, 895

이 데이터 세트에서 급여의 표본 표준 편차는 약 262.47 입니다.

극단적인 이상값을 하나만 포함하면 표준 편차가 크게 영향을 받고 이제 “전형적인” 급여 분포에 대해 잘못된 생각을 갖게 됩니다.

참고 : 데이터 집합에 이상값이 있는 경우 사분위간 범위는 이상값의 영향을 받지 않으므로 더 나은 분산 측정값을 제공할 수 있습니다.

추가 리소스

다음 자습서에서는 통계에서 표준 편차를 사용하는 방법에 대한 추가 정보를 제공합니다.

사분위수 범위와 표준편차: 차이
변동계수 대 표준편차: 차이
인구 대 샘플 표준 편차: 각각을 사용하는 경우

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다