계층화된 샘플링
이번 글에서는 계층화 샘플링이 무엇인지, 그리고 어떻게 수행되는지 설명합니다. 여기에서는 계층화 샘플링의 하위 유형에 대한 설명과 마지막으로 계층화 샘플링의 장점과 단점이 무엇인지 확인할 수 있습니다.
계층화 샘플링이란 무엇입니까?
층화 표본추출은 모집단을 그룹(계층이라고 함)으로 나누어 표본의 요소를 선택하는 데 사용되는 통계적 방법입니다. 즉, 계층화 샘플링에서는 모집단을 여러 계층으로 나누고 각 계층의 개인을 무작위로 선택하여 전체 연구 표본을 구성합니다.
지층은 동질적인 집단입니다. 즉, 한 지층에 속한 개인은 다른 지층과 구별되는 고유한 특성을 가지고 있습니다. 따라서 개인은 하나의 계층에만 속할 수 있습니다.

층화 샘플링은 모집단이 서로 매우 다른 매우 동질적인 그룹으로 구성되어 있을 때 매우 유용합니다.
논리적으로 모든 계층의 크기의 합은 통계적 모집단의 크기를 제공합니다.
마찬가지로, 각 계층에서 선택된 표본 크기의 합은 통계 연구의 전체 표본 크기와 같습니다.
우리는 일반적으로 모집단이나 표본을 각각 지정하기 위해 대문자와 소문자를 구분합니다.
계층화된 샘플링을 수행하는 방법
계층화된 샘플링을 수행하는 단계는 다음과 같습니다.
- 대상 모집단을 정의합니다.
- 변수 계층화 와 계층 수를 선택합니다.
- 인구의 각 요소가 어느 계층에 속하는지 확인합니다.
- 표본의 일부가 될 각 지층의 크기를 계산합니다.
- 연구 표본에 속할 각 지층의 요소를 무작위로 선택합니다 . 각 지층에 대해 이전 단계에서 결정된 만큼의 요소를 선택해야 합니다.
각 계층이 표본에서 나타내는 크기는 계층의 크기뿐만 아니라 계층화된 샘플링 유형에 따라 달라집니다. 다음으로, 계층화된 표본추출의 각 유형을 설명하고, 예를 들어 각 계층의 표본 크기를 계산하는 방법을 설명합니다.
계층화된 샘플링 유형
이제 계층화 샘플링의 정의를 알았으니 다음과 같이 분류되는 여러 유형의 계층화 샘플링이 있다는 것을 알아야 합니다.
- 비례 계층화 샘플링
- 균일한 층화 샘플링
- 샘플링이 최적입니다
계층화된 샘플링의 각 유형은 각 유형의 의미를 더 잘 이해할 수 있도록 아래에 자세히 설명되어 있습니다.
비례 계층화 샘플링
계층화된 비례 표본 추출 또는 비례 할당 표본 추출에서 연구 표본의 일부인 각 계층의 요소 수는 각 계층의 크기에 비례합니다.
따라서 한 지층이 다른 지층보다 크면 최종 표본에는 해당 지층의 더 많은 요소가 포함됩니다. 반면에 한 계층이 다른 계층보다 작으면 통계 분석 샘플에 있는 이 계층의 요소 수가 더 적습니다.
이러한 유형의 계층화된 샘플링은 계층의 크기가 다르고 샘플에 더 큰 계층의 요소가 더 많이 포함되기를 원할 때 유용합니다.
표본에 포함될 각 지층의 요소 수를 계산 하려면 각 지층의 크기를 모든 지층의 크기의 합으로 나누어야 합니다. 결과는 표본에 포함되어야 하는 계층의 비율이 되므로 여기에 원하는 표본 크기를 곱해야 합니다.
금
원하는 총 표본 크기입니다.
지층의 요소 수
샘플에 포함되도록,
지층 크기
, 그리고
모집단의 총 요소 수입니다.
예를 들어, 직원이 150명인 회사에서 50명의 표본을 추출하고 직원의 연령을 기준으로 데이터를 계층화하는 연구를 원한다고 가정해 보겠습니다. 데이터를 다음과 같이 분류할 수 있습니다.
- 20~29세 : 35명
- 30~39세 : 직원 57명
- 40~49세 : 직원 42명
- 50세 ~ 59세 : 직원 16명
따라서 데이터를 비례적으로 계층화하면 샘플링은 다음과 같습니다.

균일한 층화 샘플링
균일 계층화 샘플링 또는 균일 부착 샘플링에서는 연구 표본의 일부인 각 계층의 요소 수가 동일합니다.
따라서 각 계층은 이러한 유형의 샘플링에서 동일한 가중치를 갖습니다. 한 지층에 다른 지층보다 개체 수가 많든 적든 상관없이 표본에서는 모두 동일한 수의 개체로 표시됩니다.
이 경우 각 계층의 요소 크기를 계산 하려면 원하는 표본 크기를 기존 계층의 수로 나누어야 합니다. 즉, 다음 공식을 사용해야 합니다.
금
원하는 총 표본 크기입니다.
지층의 요소 수
샘플에 포함될 사람 및
인구가 나누어진 계층의 수.
이전 예에 따라 우리는 50명의 작업자로 구성된 표본을 원했고 총 4개의 서로 다른 계층이 있었기 때문에 각 계층의 표본 크기는 다음과 같습니다.
결과는 십진수이므로 50명이 될 때까지 일부 계층에는 12명의 작업자가 있고 다른 계층에는 13명이 있습니다. 따라서 균일한 계층화 샘플링은 다음과 같습니다.

보시다시피, 각 계층의 표본 크기는 각 계층의 비율과 무관합니다.
최적의 계층화된 샘플링
최적의 계층화된 샘플링 에서 각 계층의 요소 수는 각 계층의 변동성에 비례하여 달라집니다.
따라서 변동성이 큰 계층은 표본 크기가 더 크고, 반대로 변동성이 적은 계층은 표본 크기가 더 작습니다.
통계 연구 표본의 일부가 될 각 계층의 요소 수를 결정하는 공식은 다음과 같습니다.
금
원하는 총 표본 크기입니다.
지층의 요소 수입니다.
샘플에 포함되도록,
지층의 표준편차(또는 대표편차)이다.
, 그리고
지층의 크기이다
.
층화 표본 추출의 장점과 단점
층화 샘플링에는 다음과 같은 장점과 단점이 있습니다.
이점 | 단점 |
---|---|
전체 인구뿐만 아니라 각 특정 계층에 대해서도 통계적으로 연구하는 것이 가능합니다. | 이는 구현하기 복잡한 샘플링 방법입니다. |
층화추출에 의한 표본오차는 항상 단순임의추출보다 작거나 같다. | 이는 시간이 많이 걸리고 따라서 비용이 많이 드는 샘플링 프로세스입니다. |
이를 통해 모집단에 대한 연구자의 지식을 활용할 수 있습니다. | 분석된 샘플을 계층화하려면 많은 정보가 필요합니다. |
계층화된 샘플링을 사용하면 각 계층에서 최소한 하나의 요소가 샘플에 포함되도록 합니다. | 샘플링을 수행하려면 각 계층의 비율을 알아야 합니다. |
층화추출법의 주요 특징은 모집단을 나눈 각 집단이나 계층을 통계적으로 분석하는데 사용된다는 점이다. 물론, 이러한 유형의 샘플링을 통해 전체 모집단을 연구할 수도 있습니다. 또한 계층이 서로 다를 경우 데이터 계층화의 이점이 더 커집니다.
반대로, 샘플링을 수행할 수 있도록 데이터를 계층화한다는 사실은 샘플링의 복잡성이 증가한다는 것을 의미하며, 계층화 샘플링은 다른 유형의 샘플링에 비해 수행하기가 더 복잡합니다. 이 속성은 또한 계층화를 올바르게 수행하는 데 시간이 걸리기 때문에 샘플을 만드는 데 비용이 많이 든다는 것을 의미합니다.
계층화 표본추출의 또 다른 단점은 연구하려는 모집단에 대한 많은 정보가 필요하다는 점인데, 이는 단순 무작위 표본추출과 같은 다른 유형의 표본추출에는 필요하지 않습니다. 연구자가 해당 분야에 대한 풍부한 지식을 갖고 있다면 이러한 단점은 완화될 수 있습니다.
마지막으로, 계층화된 샘플링을 사용하면 각 계층의 요소가 포함되도록 보장하기 때문에 다른 유형의 샘플링보다 모집단을 더 잘 대표하는 샘플을 얻습니다. 대조적으로, 다른 샘플의 경우 결과 샘플에는 어떤 지층의 요소도 포함되어 있지 않을 수 있습니다.