단순 무작위 샘플링

에 의해 벤자민 앤더슨 8월 6, 2023 통계 댓글 0개

이번 글에서는 단순임의표본이 무엇인지, 단순임의표본에는 어떤 종류가 있는지 알아보겠습니다. 추가적으로, 간단한 무작위 샘플링이 어떻게 수행되는지 예제를 통해 설명합니다. 마지막으로 단순임의추출의 장점과 단점이 무엇인지 확인할 수 있을 것이다.

단순 무작위 샘플링이란 무엇입니까?

통계에서 단순 무작위 표본 추출은 연구용 표본을 선택하는 데 사용되는 확률적 방법입니다. 단순 무작위 표본 추출의 주요 특징은 통계 모집단의 각 요소가 연구 대상 표본에 포함될 확률을 동일하게 제공한다는 것입니다.

단순 무작위 샘플링에서는 샘플 요소가 무작위로 선택되므로 결과 샘플은 완전히 무작위입니다.

따라서 단순 무작위 표본 추출을 사용하면 특정 표본을 얻을 확률은 다른 표본을 얻을 확률과 같습니다. 이 확률이 어떻게 계산되는지 아래에서 살펴보겠습니다.

표본에서 개인을 선택하는 다른 방법도 있다는 점을 명심하세요. 가장 많이 사용되는 샘플링 유형은 주로 다음과 같습니다.

단순 무작위 샘플링
계층화된 샘플링
체계적인 샘플링
클러스터 샘플링

단순 무작위 샘플링의 개념은 확실히 이해하기 가장 쉬운 유형이지만, 때로는 무작위 특성으로 인해 구현하기가 가장 복잡한 것으로 판명되기도 합니다.

단순 무작위 샘플링을 수행하는 방법

단순임의추출을 수행하는 단계는 다음과 같습니다.

모집단의 모든 요소를 포함하는 목록을 만드세요.
모집단의 각 요소에 일련 번호(1, 2, 3,…, n)를 할당합니다 .
원하는 샘플 크기를 설정합니다.
난수 생성기를 사용하여 선택한 샘플 크기만큼 많은 숫자를 생성합니다.
생성된 번호에 할당된 개인은 샘플의 일부로 선택된 개인입니다.

난수를 생성하는 방법에는 여러 가지가 있으며 가장 전통적인 방법은 복권 방법과 숫자표 방법입니다.

복권 방법은 모든 숫자를 상자에 넣고 섞은 다음 무작위로 숫자를 그리는 것입니다.
숫자표 방법은 가능한 모든 숫자가 포함된 표에서 무작위로 숫자를 선택하는 것입니다.

앞의 두 가지 방법 중 하나를 사용할 수도 있지만 시간이 더 많이 걸리고 더 작은 샘플 크기에 더 적합합니다. 현재 컴퓨터 프로그램은 난수를 더 빠르게 생성하는 데 사용됩니다. 예를 들어 Excel 프로그램을 사용할 수 있습니다.

반면에 가능한 최소 샘플링 오류를 가지려면 샘플 크기가 적절해야 한다는 점을 고려해야 합니다. 이상적인 표본 크기를 찾는 것은 쉬운 일이 아닙니다. 이에 대해 의문이 있는 경우 당사 웹사이트에서 이 작업을 수행하는 방법을 설명하는 기사를 검색할 수 있습니다.

단순 무작위 샘플링 예

단순 무작위 샘플링의 정의를 확인한 후에는 이러한 유형의 샘플링이 수행되는 방법에 대한 해결된 예를 볼 수 있습니다.

예를 들어, 한 회사에 2000명의 직원이 있고 400명의 직원을 표본으로 통계 연구를 수행하려는 경우 단순 무작위 표본 추출을 통해 표본에 포함될 개인을 선택하기 위해 가장 먼저 해야 할 일은 다음과 같습니다. 각 직원에게 1부터 2000까지의 숫자를 할당합니다.

번호가 할당된 후 무작위로 400개의 번호를 선택해야 합니다. 이 경우 표본 크기가 상당히 크기 때문에 엑셀과 같은 컴퓨터 소프트웨어를 사용하는 것이 가장 좋습니다.

그러면, 연구 참여 대상으로 선정된 400명의 근로자는 이전 단계에서 할당된 인원이 결정된 근로자가 됩니다.

이 예에서는 400개의 항목이 충분히 대표적인 표본 크기로 간주되었지만 논리적으로 이 숫자는 실험에 따라 변경됩니다.

단순 무작위 샘플링의 유형

단순 무작위 샘플링에는 두 가지 유형이 있습니다.

단순 무작위 샘플링(교체 포함) : 샘플링 프레임의 선택된 요소가 반환되고 다시 선택할 수 있습니다.
비복원 단순임의추출 : 표본으로 선정된 항목은 삭제되어 더 이상 선택할 수 없습니다.

단순임의복원추출은 표본에서 항목을 선택하기 위해 항상 동일한 프로세스가 반복되기 때문에 가장 간단한 유형의 표본추출입니다. 그러나 비복원 단순 무작위 샘플링이 더 정확하기 때문에 더 널리 사용됩니다. 두 유형 모두 아래에서 더 자세히 설명됩니다.

교체를 통한 단순 무작위 샘플링

교체를 통한 단순 무작위 샘플링에는 선택한 각 항목을 샘플링 프레임으로 반환하여 다시 선택할 가능성이 존재합니다.

따라서 단일 항목을 여러 번 선택하여 샘플을 얻는 것이 가능하지만 이는 매우 가능성이 낮습니다.

수학적으로 이는 각 추출 확률이 동일하기 때문에 매우 간단한 유형의 샘플링입니다. 이것이 바로 다른 사람들보다 먼저 이 샘플링 기법을 연구하기 시작하는 것이 일반적인 이유입니다.

단순임의복원추출에서 특정 순서의 표본을 얻을 확률은 다음 공식을 사용하여 계산할 수 있습니다.

$P=\cfrac{1}{N^n}$

$N$

인구의 총 요소 수와

$n$

수행될 독립적인 추출 수입니다.

반면, 순서가 중요하지 않은 경우에는 다음 수식을 사용하여 표본을 얻을 확률을 계산합니다.

$P=\cfrac{n!}{\displaystyle N^n\prod_{i=1}^z k_i!}$

금

$n$

독립 추출 수입니다.

$z$

샘플의 다양한 요소 수 및

$k_i$

항목이 몇 번이나 나타나기를 원하는지

$i$

샘플에서.

마지막으로 요소가 포함될 확률을 찾으려면

$i$

즉, 요소를 포함할 확률입니다.

$i$

이 예에서는 다음 공식을 사용해야 합니다.

$\displaystyle \pi_i=1-\left(1-\frac{1}{N}\right)^n$

교체 없는 단순 무작위 샘플링

비복원 단순 무작위 표본 추출에는 원하는 표본 크기만큼 많은 개인을 표본에서 선택하여 각 개인을 한 번 선택하면 다시 선택할 수 없습니다. 따라서 선택한 각 항목은 삭제되고 대체되지 않습니다.

단순임의추출에 관해 이야기할 때, 실제로는 가장 많이 사용되는 표본이므로 일반적으로 개인을 교체하지 않는 표본을 언급합니다.

단순임의복원추출에서 특정 순서의 표본을 얻을 확률을 결정하기 위해 다음 공식이 사용됩니다.

$P=\cfrac{1}{n!\begin{pmatrix}N\\n\end{pmatrix}}$

$N$

모집단의 총 요소 수와

$n$

수행할 종속 추출 수입니다.

반면, 추출 순서를 고려하지 않으면 표본을 얻을 확률은 다음과 같습니다.

$P=\cfrac{1}{\begin{pmatrix}N\\n\end{pmatrix}}$

마지막으로, 비복원 단순 무작위 샘플링에 요소가 포함될 확률은 라플라스의 규칙을 적용하여 계산됩니다.

$\displaystyle \pi_i=\frac{n}{N}$

단순 무작위 샘플링의 장점과 단점

단순 무작위 샘플링에는 다음과 같은 장점과 단점이 있습니다.

이점	단점
이해하기 쉬운.	모집단의 모든 요소 목록이 필요합니다.
가능한 모든 표본은 동일 확률입니다.	표본 크기가 크면 비용이 매우 많이 들 수 있습니다.
일반적으로 대표 샘플을 얻습니다.	샘플링 오류가 더 큰 경향이 있습니다.
샘플링을 수행하는 데 기술적 지식이 필요하지 않습니다.	연구자가 연구 분야에 대해 갖고 있는 지식은 활용되지 않습니다.
평균과 편차를 빠르게 계산할 수 있습니다.	표본이 너무 작으면 대표성이 없을 수 있습니다.
데이터를 분석하는 통계 소프트웨어가 있습니다.	개별 인터뷰가 필요한 연구에는 적합하지 않습니다.

앞서 살펴보았듯이 단순임의추출의 주요 특징 중 하나는 이해하고 설명하기 쉽다는 것입니다. 실제로 샘플링을 수행하는 사람이 분석 분야의 전문가일 필요는 없습니다. 그러나 다른 유형의 샘플링에서는 분석가의 지식을 활용하여 더 나은 샘플링을 달성할 수 있기 때문에 이는 강점이자 약점입니다.

마찬가지로, 표본 추출은 무작위이기 때문에 연구 대상 표본을 구성하기 위해 이 요소나 저 요소를 선택할 확률은 다른 유형의 표본 추출과 달리 등확률입니다.

일반적으로 모집단의 대표 표본을 채취하지만 단순무작위 표본추출은 다른 표본추출에 비해 표본오차가 크다. 또한, 개인의 규모가 작은 경우 표본이 대표성이 없을 수도 있습니다.

단순임의추출의 매우 매력적인 특성은 컴퓨터 프로그램을 사용하여 수행할 수 있어 통계 계산을 신속하게 수행할 수 있다는 것입니다.

마지막으로, 단순 무작위 샘플링은 연구를 위해 더 많은 자원을 사용해야 할 수 있기 때문에 특히 널리 분산된 모집단의 경우 다른 유형의 샘플링보다 비용이 더 많이 들 수 있다는 점에 유의해야 합니다. 예를 들어, 무작위 표본 추출이기 때문에 연구를 수행하도록 선택된 사람들은 지리적으로 널리 분산되어 있을 수 있으므로 대면 인터뷰를 수행하는 데 훨씬 더 많은 비용이 듭니다.

저자 소개

벤자민 앤더슨

안녕하세요. 저는 통계학 교수를 퇴직하고 전임 통계 교사로 변신한 벤자민입니다. 통계 분야의 광범위한 경험과 전문 지식을 바탕으로 Statorials를 통해 학생들에게 힘을 실어주기 위해 지식을 공유하고 싶습니다. 더 알아보기