통계에서 평균이 중요한 이유는 무엇입니까?


데이터 세트의 평균 은 데이터 세트의 평균 값을 나타냅니다. 다음과 같이 계산됩니다.

평균 = Σx i / n

금:

  • Σ: 합계를 의미하는 기호
  • x i : 데이터 세트의 i 번째 관측치
  • n: 데이터 세트의 총 관측치 수

예를 들어, 11개의 관측값이 있는 다음 데이터 세트가 있다고 가정합니다.

데이터세트: 3, 4, 4, 6, 7, 8, 12, 13, 15, 16, 17

데이터 세트의 평균은 다음과 같이 계산됩니다.

평균 = (3+4+4+6+7+8+12+13+15+16+17) / 11 = 9.54

통계에서 평균은 다음과 같은 이유로 중요합니다.

1. 평균은 데이터 세트의 “중심”이 어디에 있는지 알려줍니다.

2. 평균은 계산 방식 때문에 데이터 세트의 관측치 에서 얻은 정보를 포함합니다.

다음 예에서는 이러한 두 가지 이유를 보여줍니다.

예: 데이터 세트의 평균 계산

특정 도시에 있는 10,000채의 주택 판매 가격이 포함된 데이터 세트가 있다고 가정해 보겠습니다.

수천 행의 원시 데이터를 보는 대신 평균값을 계산하여 해당 도시의 주택 평균 판매 가격을 빠르게 이해할 수 있습니다.

평균 판매 가격이 $297,000라는 사실을 알면 이 도시의 “전형적인” 주택 가격이 얼마인지 알 수 있습니다.

이 단일 평균 값은 원시 데이터의 모든 행을 보는 것보다 해석하기가 훨씬 쉽습니다.

그리고 각 주택 판매 가격이 평균을 계산하는 데 사용되었으므로 평균 판매 가격에 총 주택 수를 곱하여 해당 도시에 있는 모든 주택의 총 판매 가격을 찾을 수 있습니다.

  • 전체 주택의 총 매매가격 = 평균 매매가격 * 주택수
  • 모든 주택의 총 판매 가격 = $297,000 * 10,000
  • 모든 주택의 총 판매 가격 = $2,970,000,000

이 도시의 모든 주택의 총 판매 가격이 29억 7천만 달러임을 알 수 있습니다.

평균을 사용해야 하는 경우

데이터 세트를 분석할 때 우리는 중심 가치가 어디에 있는지 알고 싶어하는 경우가 많습니다.

통계에는 데이터 세트의 중심을 측정하는 데 사용하는 두 가지 일반적인 측정항목이 있습니다.

  • Mean : 데이터 세트의 평균값
  • 중앙값 : 데이터 세트의 중앙값

평균은 데이터 세트의 중심을 측정하는 가장 일반적인 방법이지만 다음과 같은 상황에서는 실제로 오해의 소지가 있을 수 있습니다.

이를 설명하기 위해 다음 두 가지 예를 고려하십시오.

예 1: 치우친 분포의 평균 계산

특정 도시 거주자에 대한 다음과 같은 급여 분포를 고려하십시오.

분포 오른쪽에 있는 높은 임금은 평균을 분포 중앙에서 멀어지게 만듭니다.

따라서 중앙값은 분포가 오른쪽으로 치우쳐 있기 때문에 평균보다 거주자의 “일반적인” 급여를 더 잘 반영합니다.

이 특정 예에서 평균 급여는 $47,000이고 중간 급여는 $32,000입니다.

따라서 중앙값은 해당 도시의 일반적인 급여를 훨씬 더 잘 대표합니다.

예 2: 이상값이 있는 경우 평균 계산

특정 거리에 있는 주택의 면적을 보여주는 다음 그래프를 살펴보세요.

평균과 중앙값을 사용해야 하는 경우

평균은 몇몇 매우 큰 주택의 영향을 많이 받는 반면 중앙값은 그렇지 않습니다.

중앙값은 이상값의 영향을 받지 않기 때문에 해당 거리에 있는 집의 “전형적인” 평방 피트를 평균보다 더 잘 포착한다는 것을 알 수 있습니다.

요약

다음은 이 기사의 주요 내용을 간략하게 요약한 것입니다.

  • 평균은 데이터 집합의 평균 값을 나타냅니다.
  • 평균은 데이터 세트에서 중심 값이 어디에 있는지 알려 주기 때문에 중요합니다.
  • 평균은 데이터 세트의 관찰에서 얻은 정보를 포함하므로 중요합니다.
  • 데이터 집합이 치우쳐 있거나 이상치가 포함되어 있으면 평균이 오해를 불러일으킬 수 있습니다. 이러한 시나리오에서 중앙값은 데이터 세트의 “중심”이 어디에 있는지에 대한 보다 정확한 아이디어를 제공합니다.

추가 리소스

다음 자습서에서는 기타 기술 통계에 대한 추가 정보를 제공합니다.

통계에서 중앙값이 중요한 이유는 무엇입니까?
통계에서 표준편차가 왜 중요한가요?
평균과 중앙값을 사용해야 하는 경우

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다