Отбор проб с заменой или без замены


Часто в статистике мы хотим собрать данные, чтобы ответить на определенные исследовательские вопросы.

Например, мы можем захотеть ответить на следующие вопросы:

1. Каков средний доход семьи в Цинциннати, штат Огайо?

2. Каков средний вес черепах определенной популяции?

3. Какой процент жителей определенного округа поддерживает тот или иной закон?

В каждом сценарии мы хотим ответить на вопрос о совокупности , которая представляет все возможные отдельные элементы, которые мы хотим измерить.

Однако вместо сбора данных о каждом человеке в популяции мы обычно собираем данные только о выборке населения, которая представляет собой часть населения.

Существует два различных способа сбора проб: отбор проб с заменой и отбор проб без замены .

В этом руководстве объясняется разница между этими двумя методами, а также приводятся примеры использования каждого из них на практике.

Выборка с заменой

Допустим, у нас в шапке имена 5 учеников:

  • Энди
  • Карл
  • Тайлер
  • Бекка
  • Джессика

Предположим, мы хотим взять выборку из двух студентов с заменой.

На первом рисунке мы могли бы выбрать имя Тайлера. Затем мы снова помещали его имя в шляпу и рисовали снова. На втором рисунке мы могли бы снова выбрать имя Тайлера. Итак, наш образец будет таким: {Тайлер, Тайлер}

Это пример получения образца с заменой, поскольку мы заменяем выбранное нами имя после каждого рисунка.

Когда мы выполняем выборку с заменой, элементы выборки независимы , поскольку результат одного подбрасывания монеты не зависит от предыдущего подбрасывания монеты.

Например, вероятность выбора имени Тайлер равна 1/5 для первого рисунка и снова 1/5 для второго рисунка. Исход первого розыгрыша не влияет на вероятность исхода второго розыгрыша.

Выборка с заменой используется во многих различных сценариях в статистике и машинном обучении, в том числе:

В каждом из этих методов используется выборка с заменой, поскольку она позволяет нам использовать один и тот же набор данных несколько раз для построения моделей вместо сбора новых данных, что может быть трудоемким и дорогостоящим.

Выборка без замены

Опять же предположим, что у нас в шапке имена 5 учеников:

  • Энди
  • Карл
  • Тайлер
  • Бекка
  • Джессика

Предположим, мы хотим взять выборку из 2 студентов без замены.

На первом рисунке мы могли бы выбрать имя Тайлера. Тогда мы оставим его имя в стороне. На втором рисунке мы могли выбрать имя Энди. Итак, наш образец будет таким: {Тайлер, Энди}

Это пример получения образца без замены, поскольку мы не заменяем выбранное нами имя после каждого рисунка.

Когда мы выполняем выборку без замены, элементы выборки являются зависимыми , поскольку на результат одного подбрасывания монеты влияет предыдущий подбрасывание монеты.

Например, вероятность выбора имени Тайлер составляет 1/5 на первом рисунке, а вероятность выбора имени Энди — 1/4 на втором рисунке. Исход первого розыгрыша влияет на вероятность исхода второго розыгрыша.

Выборка без замены — это метод, который мы используем, когда хотим выбрать случайную выборку из совокупности.

Например, если мы хотим оценить средний доход домохозяйства в Цинциннати, штат Огайо, всего может быть 500 000 различных домохозяйств.

Итак, мы можем захотеть собрать случайную выборку из 2000 домохозяйств, но мы не хотим, чтобы данные какого-либо конкретного домохозяйства появлялись в выборке дважды, поэтому мы будем выбирать без замены.

Другими словами, как только мы выбрали определенное домохозяйство для включения в выборку, мы не хотим иметь никаких шансов снова выбрать это домохозяйство для включения.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *