교체 또는 교체 없이 샘플링
통계에서 우리는 특정 연구 질문에 답하기 위해 데이터를 수집하려는 경우가 많습니다.
예를 들어, 다음 질문에 답하고 싶을 수 있습니다.
1. 오하이오주 신시내티의 평균 가계 소득은 얼마입니까?
2. 특정 거북이 개체군의 평균 체중은 얼마입니까?
3. 특정 카운티의 주민 중 몇 퍼센트가 특정 법률을 지지합니까?
각 시나리오에서 우리는 측정하려는 가능한 모든 개별 요소를 나타내는 모집단 에 대한 질문에 답하고 싶습니다.
그러나 모집단의 모든 개인에 대한 데이터를 수집하는 대신 일반적으로 모집단의 일부를 나타내는 모집단 표본에 대한 데이터만 수집합니다.
샘플을 수집하는 방법에는 두 가지 방법이 있습니다. 즉, 대체를 사용한 샘플링 과 비복원 샘플링입니다 .
이 튜토리얼에서는 두 가지 방법의 차이점을 설명하고 각 방법을 실제로 사용하는 방법에 대한 예를 설명합니다.
교체로 샘플링
모자를 쓴 학생 5명의 이름이 있다고 가정해 보겠습니다.
- 앤디
- 칼
- 타일러
- 베카
- 제시카
2명의 학생을 대체 표본으로 추출하고 싶다고 가정해 보겠습니다.
첫 번째 그림에서는 Tyler의 이름을 선택할 수 있습니다. 그런 다음 그의 이름을 다시 모자에 넣고 다시 그렸습니다. 두 번째 그림에서는 Tyler의 이름을 다시 선택할 수도 있습니다. 따라서 우리의 샘플은 다음과 같습니다: {Tyler, Tyler}
각 도면 이후에 선택한 이름을 교체하기 때문에 교체로 샘플을 얻는 예입니다.
복원 표본을 추출할 때, 한 번의 동전 던지기 결과는 이전 동전 던지기의 영향을 받지 않기 때문에 표본 요소는 독립적 입니다.
예를 들어 Tyler라는 이름을 선택할 확률은 첫 번째 추첨에서는 1/5이고 두 번째 추첨에서는 다시 1/5입니다. 첫 번째 추첨 결과는 두 번째 추첨 결과 확률에 영향을 미치지 않습니다.
대체 샘플링은 다음을 포함하여 통계 및 기계 학습의 다양한 시나리오에서 사용됩니다.
이러한 각 방법에서 대체 샘플링을 사용하는 이유는 시간이 많이 걸리고 비용이 많이 들 수 있는 새로운 데이터를 수집하는 대신 동일한 데이터 세트를 여러 번 사용하여 모델을 구축할 수 있기 때문입니다.
교체 없이 샘플링
다시, 모자를 쓴 5명의 학생 이름이 있다고 가정해 보겠습니다.
- 앤디
- 칼
- 타일러
- 베카
- 제시카
대체 없이 2명의 학생을 표본으로 추출하고 싶다고 가정해 보겠습니다.
첫 번째 그림에서는 Tyler의 이름을 선택할 수 있습니다. 그런 다음 그의 이름을 제쳐두겠습니다. 두 번째 그림에서는 Andy라는 이름을 선택할 수 있습니다. 따라서 우리의 샘플은 다음과 같습니다: {Tyler, Andy}
각 도면 이후에 선택한 이름을 바꾸지 않기 때문에 교체 없이 샘플을 얻는 예입니다.
복원 없이 표본을 추출하는 경우, 한 번의 동전 던지기 결과가 이전 동전 던지기의 영향을 받기 때문에 표본 요소는 종속적 입니다.
예를 들어 첫 번째 추첨에서 Tyler라는 이름을 선택할 확률은 1/5이고 두 번째 추첨에서 Andy라는 이름을 선택할 확률은 1/4입니다. 첫 번째 추첨의 결과는 두 번째 추첨 결과의 확률에 영향을 미칩니다.
비복원 표본 추출은 모집단에서 무작위 표본을 선택하려고 할 때 사용하는 방법입니다.
예를 들어, 오하이오주 신시내티의 중간 가계 소득을 추정하려는 경우 총 500,000개의 서로 다른 가구가 있을 수 있습니다.
따라서 2,000개 가구의 무작위 표본을 수집하고 싶지만 특정 가구의 데이터가 표본에 두 번 나타나는 것을 원하지 않으므로 대체 없이 표본을 추출합니다.
즉, 일단 표본에 포함할 특정 가구를 선택하면 해당 가구를 다시 포함할 기회를 갖지 않기를 원합니다.