표본 평균과 모집단 평균: 차이점은 무엇입니까?
통계에서 우리는 종종 다음과 같은 질문에 답하고 싶어합니다.
- 특정 도시의 평균 가계 소득은 얼마입니까?
- 특정 거북이 종의 평균 체중은 얼마입니까?
- 대학 미식축구 경기의 평균 관중 수는 얼마입니까?
각 시나리오에서 우리는 측정하려는 가능한 모든 개별 요소를 나타내는 모집단 에 대한 질문에 답하고 싶습니다.
그러나 모집단의 각 개인에 대한 데이터를 수집하는 대신 전체 인구의 일부를 나타내는 모집단 표본에 대한 데이터를 수집합니다.
예를 들어, 총 개체수가 800마리인 특정 거북이 종의 평균 체중을 알고 싶을 수 있습니다.
모집단의 모든 거북이를 찾아 무게를 측정하는 데 시간이 너무 오래 걸리기 때문에 대신 30마리의 거북이로 구성된 간단한 무작위 표본을 수집하고 무게를 측정합니다.
그런 다음 이 거북이 표본의 평균 무게를 사용하여 개체군에 있는 모든 거북이의 평균 무게를 추정할 수 있습니다.
표본 평균을 계산하는 방법
종종 x 로 표시되는 표본 평균을 계산하는 공식은 다음과 같습니다.
x = Σx i / n
금:
- Σ: “합계”를 의미하는 정교한 그리스 기호
- x i : 데이터세트의 i번째 관측치 값
- n: 표본 크기
예를 들어, 다음과 같은 무게(파운드 단위)를 가진 거북이 10마리의 샘플을 수집한다고 가정합니다.
- 70, 80, 80, 85, 90, 95, 110, 120, 140, 150
표본 평균은 다음과 같이 계산됩니다.
- x = (70+ 80+80+85+90+95+110+120+140+150) / 10 = 102
표본평균이 편향되지 않은 이유
통계 전문 용어로 말하면, 표본 평균은 통계 이고 모집단 평균은 모수 입니다.
두 용어의 차이점은 다음과 같습니다.
통계란 표본의 특정 특성을 설명하는 숫자입니다.
모수는 모집단의 특성을 설명하는 숫자입니다.
모수는 실제로 측정하려는 값이지만 통계는 통계를 얻는 것이 훨씬 쉽기 때문에 모수 값을 추정하는 데 사용하는 값입니다.
표본을 얻기 위해 단순 무작위 표본 추출 과 같은 방법을 사용할 때 표본 평균은 모집단 평균의 편견 없는 추정량 이라고 말합니다.
즉, 표본 평균이 실제 모집단 평균을 과소평가하거나 과대평가할 것이라고 믿을 이유가 없습니다.
그 이유는 단순무작위추출과 같은 방법을 사용할 경우 모집단의 각 구성원이 표본에 포함될 확률이 동일하므로 표본이 전체 모집단의 “미니 버전”이 될 가능성이 높기 때문입니다. .
표본이 전체 모집단을 대표 한다고 말할 수 있는데, 이는 표본 크기가 충분히 크다고 가정할 때 표본 평균이 모집단 평균의 좋은 추정치여야 함을 의미합니다.
표본 평균과 함께 신뢰 구간 사용 시
표본 평균은 모집단 평균의 편향되지 않은 추정치를 제공하지만 모집단 평균과 정확히 일치할 가능성은 없습니다.
예를 들어 거북이 표본을 사용하여 거북이 개체군의 평균 체중을 추정하려는 경우 체중이 가벼운 거북이로 채워진 표본을 선택하거나 무거운 거북이로 채워진 표본을 선택할 수 있습니다.
모집단 평균 추정치에 대한 이러한 불확실성을 포착하기 위해 신뢰 구간 을 만들 수 있습니다.
신뢰구간은 일정 수준의 신뢰도를 갖는 모집단 매개변수가 포함될 가능성이 있는 값의 범위입니다.
예를 들어 거북이 30마리의 샘플을 수집하고 해당 샘플의 평균 무게가 102파운드라는 것을 알 수 있습니다. 그런 다음 95% 신뢰 구간을 구성하면 해당 구간은 다음과 같습니다.
95% 신뢰 구간 = [98.5, 105.5]
우리는 이것을 신뢰 구간 [98.5, 105.5]에 거북이 개체군의 실제 평균 체중이 포함될 확률이 95%라는 의미로 해석합니다.
이 신뢰 구간은 실제 모집단 평균이 속할 가능성이 있는 값의 범위 를 제공하기 때문에 단순 표본 평균보다 더 유용합니다.