교체 또는 교체 없이 샘플링


통계에서 우리는 특정 연구 질문에 답하기 위해 데이터를 수집하려는 경우가 많습니다.

예를 들어, 다음 질문에 답하고 싶을 수 있습니다.

1. 오하이오주 신시내티의 평균 가계 소득은 얼마입니까?

2. 특정 거북이 개체군의 평균 체중은 얼마입니까?

3. 특정 카운티의 주민 중 몇 퍼센트가 특정 법률을 지지합니까?

각 시나리오에서 우리는 측정하려는 가능한 모든 개별 요소를 나타내는 모집단 에 대한 질문에 답하고 싶습니다.

그러나 모집단의 모든 개인에 대한 데이터를 수집하는 대신 일반적으로 모집단의 일부를 나타내는 모집단 표본에 대한 데이터만 수집합니다.

샘플을 수집하는 방법에는 두 가지 방법이 있습니다. 즉, 대체를 사용한 샘플링비복원 샘플링입니다 .

이 튜토리얼에서는 두 가지 방법의 차이점을 설명하고 각 방법을 실제로 사용하는 방법에 대한 예를 설명합니다.

교체로 샘플링

모자를 쓴 학생 5명의 이름이 있다고 가정해 보겠습니다.

  • 앤디
  • 타일러
  • 베카
  • 제시카

2명의 학생을 대체 표본으로 추출하고 싶다고 가정해 보겠습니다.

첫 번째 그림에서는 Tyler의 이름을 선택할 수 있습니다. 그런 다음 그의 이름을 다시 모자에 넣고 다시 그렸습니다. 두 번째 그림에서는 Tyler의 이름을 다시 선택할 수도 있습니다. 따라서 우리의 샘플은 다음과 같습니다: {Tyler, Tyler}

각 도면 이후에 선택한 이름을 교체하기 때문에 교체로 샘플을 얻는 예입니다.

복원 표본을 추출할 때, 한 번의 동전 던지기 결과는 이전 동전 던지기의 영향을 받지 않기 때문에 표본 요소는 독립적 입니다.

예를 들어 Tyler라는 이름을 선택할 확률은 첫 번째 추첨에서는 1/5이고 두 번째 추첨에서는 다시 1/5입니다. 첫 번째 추첨 결과는 두 번째 추첨 결과 확률에 영향을 미치지 않습니다.

대체 샘플링은 다음을 포함하여 통계 및 기계 학습의 다양한 시나리오에서 사용됩니다.

이러한 각 방법에서 대체 샘플링을 사용하는 이유는 시간이 많이 걸리고 비용이 많이 들 수 있는 새로운 데이터를 수집하는 대신 동일한 데이터 세트를 여러 번 사용하여 모델을 구축할 수 있기 때문입니다.

교체 없이 샘플링

다시, 모자를 쓴 5명의 학생 이름이 있다고 가정해 보겠습니다.

  • 앤디
  • 타일러
  • 베카
  • 제시카

대체 없이 2명의 학생을 표본으로 추출하고 싶다고 가정해 보겠습니다.

첫 번째 그림에서는 Tyler의 이름을 선택할 수 있습니다. 그런 다음 그의 이름을 제쳐두겠습니다. 두 번째 그림에서는 Andy라는 이름을 선택할 수 있습니다. 따라서 우리의 샘플은 다음과 같습니다: {Tyler, Andy}

각 도면 이후에 선택한 이름을 바꾸지 않기 때문에 교체 없이 샘플을 얻는 예입니다.

복원 없이 표본을 추출하는 경우, 한 번의 동전 던지기 결과가 이전 동전 던지기의 영향을 받기 때문에 표본 요소는 종속적 입니다.

예를 들어 첫 번째 추첨에서 Tyler라는 이름을 선택할 확률은 1/5이고 두 번째 추첨에서 Andy라는 이름을 선택할 확률은 1/4입니다. 첫 번째 추첨의 결과는 두 번째 추첨 결과의 확률에 영향을 미칩니다.

비복원 표본 추출은 모집단에서 무작위 표본을 선택하려고 할 때 사용하는 방법입니다.

예를 들어, 오하이오주 신시내티의 중간 가계 소득을 추정하려는 경우 총 500,000개의 서로 다른 가구가 있을 수 있습니다.

따라서 2,000개 가구의 무작위 표본을 수집하고 싶지만 특정 가구의 데이터가 표본에 두 번 나타나는 것을 원하지 않으므로 대체 없이 표본을 추출합니다.

즉, 일단 표본에 포함할 특정 가구를 선택하면 해당 가구를 다시 포함할 기회를 갖지 않기를 원합니다.

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다