계층화된 샘플링
이번 글에서는 계층화 샘플링이 무엇인지, 그리고 어떻게 수행되는지 설명합니다. 여기에서는 계층화 샘플링의 하위 유형에 대한 설명과 마지막으로 계층화 샘플링의 장점과 단점이 무엇인지 확인할 수 있습니다.
계층화 샘플링이란 무엇입니까?
층화 표본추출은 모집단을 그룹(계층이라고 함)으로 나누어 표본의 요소를 선택하는 데 사용되는 통계적 방법입니다. 즉, 계층화 샘플링에서는 모집단을 여러 계층으로 나누고 각 계층의 개인을 무작위로 선택하여 전체 연구 표본을 구성합니다.
지층은 동질적인 집단입니다. 즉, 한 지층에 속한 개인은 다른 지층과 구별되는 고유한 특성을 가지고 있습니다. 따라서 개인은 하나의 계층에만 속할 수 있습니다.

층화 샘플링은 모집단이 서로 매우 다른 매우 동질적인 그룹으로 구성되어 있을 때 매우 유용합니다.
논리적으로 모든 계층의 크기의 합은 통계적 모집단의 크기를 제공합니다.
![]()
마찬가지로, 각 계층에서 선택된 표본 크기의 합은 통계 연구의 전체 표본 크기와 같습니다.
![]()
우리는 일반적으로 모집단이나 표본을 각각 지정하기 위해 대문자와 소문자를 구분합니다.
계층화된 샘플링을 수행하는 방법
계층화된 샘플링을 수행하는 단계는 다음과 같습니다.
- 대상 모집단을 정의합니다.
- 변수 계층화 와 계층 수를 선택합니다.
- 인구의 각 요소가 어느 계층에 속하는지 확인합니다.
- 표본의 일부가 될 각 지층의 크기를 계산합니다.
- 연구 표본에 속할 각 지층의 요소를 무작위로 선택합니다 . 각 지층에 대해 이전 단계에서 결정된 만큼의 요소를 선택해야 합니다.
각 계층이 표본에서 나타내는 크기는 계층의 크기뿐만 아니라 계층화된 샘플링 유형에 따라 달라집니다. 다음으로, 계층화된 표본추출의 각 유형을 설명하고, 예를 들어 각 계층의 표본 크기를 계산하는 방법을 설명합니다.
계층화된 샘플링 유형
이제 계층화 샘플링의 정의를 알았으니 다음과 같이 분류되는 여러 유형의 계층화 샘플링이 있다는 것을 알아야 합니다.
- 비례 계층화 샘플링
- 균일한 층화 샘플링
- 샘플링이 최적입니다
계층화된 샘플링의 각 유형은 각 유형의 의미를 더 잘 이해할 수 있도록 아래에 자세히 설명되어 있습니다.
비례 계층화 샘플링
계층화된 비례 표본 추출 또는 비례 할당 표본 추출에서 연구 표본의 일부인 각 계층의 요소 수는 각 계층의 크기에 비례합니다.
따라서 한 지층이 다른 지층보다 크면 최종 표본에는 해당 지층의 더 많은 요소가 포함됩니다. 반면에 한 계층이 다른 계층보다 작으면 통계 분석 샘플에 있는 이 계층의 요소 수가 더 적습니다.
이러한 유형의 계층화된 샘플링은 계층의 크기가 다르고 샘플에 더 큰 계층의 요소가 더 많이 포함되기를 원할 때 유용합니다.
표본에 포함될 각 지층의 요소 수를 계산 하려면 각 지층의 크기를 모든 지층의 크기의 합으로 나누어야 합니다. 결과는 표본에 포함되어야 하는 계층의 비율이 되므로 여기에 원하는 표본 크기를 곱해야 합니다.
![]()
금
![]()
원하는 총 표본 크기입니다.
![]()
지층의 요소 수
![]()
샘플에 포함되도록,
![]()
지층 크기
![]()
, 그리고
![]()
모집단의 총 요소 수입니다.
예를 들어, 직원이 150명인 회사에서 50명의 표본을 추출하고 직원의 연령을 기준으로 데이터를 계층화하는 연구를 원한다고 가정해 보겠습니다. 데이터를 다음과 같이 분류할 수 있습니다.
- 20~29세 : 35명
- 30~39세 : 직원 57명
- 40~49세 : 직원 42명
- 50세 ~ 59세 : 직원 16명
따라서 데이터를 비례적으로 계층화하면 샘플링은 다음과 같습니다.

균일한 층화 샘플링
균일 계층화 샘플링 또는 균일 부착 샘플링에서는 연구 표본의 일부인 각 계층의 요소 수가 동일합니다.
따라서 각 계층은 이러한 유형의 샘플링에서 동일한 가중치를 갖습니다. 한 지층에 다른 지층보다 개체 수가 많든 적든 상관없이 표본에서는 모두 동일한 수의 개체로 표시됩니다.
이 경우 각 계층의 요소 크기를 계산 하려면 원하는 표본 크기를 기존 계층의 수로 나누어야 합니다. 즉, 다음 공식을 사용해야 합니다.
![]()
금
![]()
원하는 총 표본 크기입니다.
![]()
지층의 요소 수
![]()
샘플에 포함될 사람 및
![]()
인구가 나누어진 계층의 수.
이전 예에 따라 우리는 50명의 작업자로 구성된 표본을 원했고 총 4개의 서로 다른 계층이 있었기 때문에 각 계층의 표본 크기는 다음과 같습니다.
![]()
결과는 십진수이므로 50명이 될 때까지 일부 계층에는 12명의 작업자가 있고 다른 계층에는 13명이 있습니다. 따라서 균일한 계층화 샘플링은 다음과 같습니다.

보시다시피, 각 계층의 표본 크기는 각 계층의 비율과 무관합니다.
최적의 계층화된 샘플링
최적의 계층화된 샘플링 에서 각 계층의 요소 수는 각 계층의 변동성에 비례하여 달라집니다.
따라서 변동성이 큰 계층은 표본 크기가 더 크고, 반대로 변동성이 적은 계층은 표본 크기가 더 작습니다.
통계 연구 표본의 일부가 될 각 계층의 요소 수를 결정하는 공식은 다음과 같습니다.

금
![]()
원하는 총 표본 크기입니다.
![]()
지층의 요소 수입니다.
![]()
샘플에 포함되도록,
![]()
지층의 표준편차(또는 대표편차)이다.
![]()
, 그리고
![]()
지층의 크기이다
![]()
.
층화 표본 추출의 장점과 단점
층화 샘플링에는 다음과 같은 장점과 단점이 있습니다.
| 이점 | 단점 |
|---|---|
| 전체 인구뿐만 아니라 각 특정 계층에 대해서도 통계적으로 연구하는 것이 가능합니다. | 이는 구현하기 복잡한 샘플링 방법입니다. |
| 층화추출에 의한 표본오차는 항상 단순임의추출보다 작거나 같다. | 이는 시간이 많이 걸리고 따라서 비용이 많이 드는 샘플링 프로세스입니다. |
| 이를 통해 모집단에 대한 연구자의 지식을 활용할 수 있습니다. | 분석된 샘플을 계층화하려면 많은 정보가 필요합니다. |
| 계층화된 샘플링을 사용하면 각 계층에서 최소한 하나의 요소가 샘플에 포함되도록 합니다. | 샘플링을 수행하려면 각 계층의 비율을 알아야 합니다. |
층화추출법의 주요 특징은 모집단을 나눈 각 집단이나 계층을 통계적으로 분석하는데 사용된다는 점이다. 물론, 이러한 유형의 샘플링을 통해 전체 모집단을 연구할 수도 있습니다. 또한 계층이 서로 다를 경우 데이터 계층화의 이점이 더 커집니다.
반대로, 샘플링을 수행할 수 있도록 데이터를 계층화한다는 사실은 샘플링의 복잡성이 증가한다는 것을 의미하며, 계층화 샘플링은 다른 유형의 샘플링에 비해 수행하기가 더 복잡합니다. 이 속성은 또한 계층화를 올바르게 수행하는 데 시간이 걸리기 때문에 샘플을 만드는 데 비용이 많이 든다는 것을 의미합니다.
계층화 표본추출의 또 다른 단점은 연구하려는 모집단에 대한 많은 정보가 필요하다는 점인데, 이는 단순 무작위 표본추출과 같은 다른 유형의 표본추출에는 필요하지 않습니다. 연구자가 해당 분야에 대한 풍부한 지식을 갖고 있다면 이러한 단점은 완화될 수 있습니다.
마지막으로, 계층화된 샘플링을 사용하면 각 계층의 요소가 포함되도록 보장하기 때문에 다른 유형의 샘플링보다 모집단을 더 잘 대표하는 샘플을 얻습니다. 대조적으로, 다른 샘플의 경우 결과 샘플에는 어떤 지층의 요소도 포함되어 있지 않을 수 있습니다.