분산을 해석하는 방법에 대한 간단한 설명


통계에서 우리는 종종 데이터 세트에서 값이 어떻게 “확산”되는지 이해하고 싶어합니다. 이를 측정하기 위해 우리는 종종 다음과 같은 분산 측정을 사용합니다.

  • 범위: 데이터 세트에서 가장 큰 값과 가장 작은 값의 차이입니다.
  • 사분위수 범위: 데이터 세트의 첫 번째 사분위수와 세 번째 사분위수의 차이(사분위수는 단순히 데이터 세트를 4개의 동일한 부분으로 나누는 값입니다).
  • 표준편차: 값과 평균 사이의 일반적인 거리를 측정하는 방법입니다.
  • 분산: 표준편차의 제곱입니다.

이 네 가지 측정값 중 분산은 직관적으로 이해하기 가장 어려운 경향이 있습니다. 이 글은 분산에 대한 간단한 설명을 제공하는 것을 목표로 합니다.

표준편차 이해

분산을 이해하기 전에 먼저 표준편차 (일반적으로 σ 로 표시)를 이해해야 합니다.

표준편차를 계산하는 공식은 다음과 같습니다.

σ = √(Σ ( xi – μ) 2 / N)

여기서 μ는 모집단 평균, x i 는 모집단의 i 번째 요소, N은 모집단 크기, Σ는 “합계”를 의미하는 멋진 기호입니다.

실제로 표준편차를 직접 계산할 필요는 거의 없습니다. 대신 통계 소프트웨어나 계산기를 사용할 수 있습니다.

가장 기본적인 수준에서 표준 편차는 데이터 세트의 데이터 값 분포를 알려줍니다. 이를 설명하기 위해 해당 표준 편차와 함께 다음 세 가지 데이터 세트를 고려하십시오.

[5, 5, 5] 표준 편차 = 0 (전혀 확산 없음)

[3, 5, 7] 표준편차 = 1.63 (일부 편차)

[1, 5, 99] 표준편차 = 45.28 (확산이 많음)

“표준편차”라는 용어는 이를 구성하는 두 단어를 보면 이해할 수 있습니다.

  • “편차” – 이는 평균으로부터의 거리를 나타냅니다.
  • “표준” – 이는 값과 평균 사이의 “표준” 또는 “전형적인” 거리를 나타냅니다.

표준편차를 이해하면 분산을 이해하는 것이 훨씬 쉽습니다.

격차 이해

일반적으로 σ2 로 표시되는 분산은 단순히 표준편차의 제곱입니다. 데이터 세트의 분산을 찾는 공식은 다음과 같습니다.

σ 2 = Σ ( xi – μ) 2 / N

여기서 μ는 모집단 평균, x i 는 모집단의 i 번째 요소, N은 모집단 크기, Σ는 “합계”를 의미하는 멋진 기호입니다.

따라서 데이터 집합의 표준편차가 8이면 변동은 8 2 = 64가 됩니다.

또는 데이터 세트의 표준 편차가 10이면 변동은 10 2 = 100이 됩니다.

또는 데이터 세트의 표준 편차가 3.7이면 변동은 3.7 2 = 13.69가 됩니다.

데이터 세트에 값이 더 많이 분산되어 있을수록 분산이 높아집니다. 이를 설명하기 위해 해당 분산과 함께 다음 세 가지 데이터 세트를 고려하십시오.

[5, 5, 5] 분산 = 0 (전혀 확산되지 않음)

[3, 5, 7] 분산 = 2.67 (일부 편차)

[1, 5, 99] 분산 = 2,050.67 (많은 스프레드)

표준편차 대신 분산을 언제 사용합니까?

위의 표준 편차 및 분산에 대한 설명을 읽은 후에는 데이터 세트를 설명하기 위해 언제 표준 편차 대신 분산을 사용하게 될지 궁금할 것입니다.

결국, 표준편차는 값과 평균 사이의 평균 거리를 알려주고, 분산은 해당 값의 제곱을 알려줍니다. 표준편차는 이해하고 해석하기가 훨씬 쉬운 것 같습니다.

실제로는 데이터 세트의 값 분포를 설명하기 위해 거의 항상 표준 편차를 사용합니다.

그러나 분산은 분산 분석 이나 회귀 와 같은 기술을 사용하고 특정 요인으로 인한 모델의 전체 분산을 설명하려고 할 때 유용할 수 있습니다.

예를 들어, IQ로 설명할 수 있는 시험 점수의 차이와 공부 시간으로 설명할 수 있는 차이가 얼마나 되는지 알고 싶을 수 있습니다.

변동의 36%가 IQ 때문이고 64%가 공부 시간 때문이라면 이는 이해하기 쉽습니다. 그러나 6과 8의 표준편차를 사용하면 훨씬 덜 직관적이고 문제의 맥락에서 그다지 의미가 없습니다.

표준편차보다 분산을 사용하는 것이 더 나을 수 있는 또 다른 경우는 이론적 통계 작업을 수행할 때입니다.

이 경우 제곱근 기호를 사용할 필요가 없으므로 계산 시 분산을 사용하는 것이 훨씬 쉽습니다.

추가 리소스

다음 튜토리얼에서는 분산에 대한 추가 정보를 제공합니다.

표본 분산과 모집단 분산: 차이점은 무엇인가요?
Excel에서 표본 및 모집단 분산을 계산하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다