Отбор проб с заменой или без замены
Часто в статистике мы хотим собрать данные, чтобы ответить на определенные исследовательские вопросы.
Например, мы можем захотеть ответить на следующие вопросы:
1. Каков средний доход семьи в Цинциннати, штат Огайо?
2. Каков средний вес черепах определенной популяции?
3. Какой процент жителей определенного округа поддерживает тот или иной закон?
В каждом сценарии мы хотим ответить на вопрос о совокупности , которая представляет все возможные отдельные элементы, которые мы хотим измерить.
Однако вместо сбора данных о каждом человеке в популяции мы обычно собираем данные только о выборке населения, которая представляет собой часть населения.
Существует два различных способа сбора проб: отбор проб с заменой и отбор проб без замены .
В этом руководстве объясняется разница между этими двумя методами, а также приводятся примеры использования каждого из них на практике.
Выборка с заменой
Допустим, у нас в шапке имена 5 учеников:
- Энди
- Карл
- Тайлер
- Бекка
- Джессика
Предположим, мы хотим взять выборку из двух студентов с заменой.
На первом рисунке мы могли бы выбрать имя Тайлера. Затем мы снова помещали его имя в шляпу и рисовали снова. На втором рисунке мы могли бы снова выбрать имя Тайлера. Итак, наш образец будет таким: {Тайлер, Тайлер}
Это пример получения образца с заменой, поскольку мы заменяем выбранное нами имя после каждого рисунка.
Когда мы выполняем выборку с заменой, элементы выборки независимы , поскольку результат одного подбрасывания монеты не зависит от предыдущего подбрасывания монеты.
Например, вероятность выбора имени Тайлер равна 1/5 для первого рисунка и снова 1/5 для второго рисунка. Исход первого розыгрыша не влияет на вероятность исхода второго розыгрыша.
Выборка с заменой используется во многих различных сценариях в статистике и машинном обучении, в том числе:
- Грунтовка
- Упаковка
- Простое введение в ускорение машинного обучения
- Простое введение в случайные леса
В каждом из этих методов используется выборка с заменой, поскольку она позволяет нам использовать один и тот же набор данных несколько раз для построения моделей вместо сбора новых данных, что может быть трудоемким и дорогостоящим.
Выборка без замены
Опять же предположим, что у нас в шапке имена 5 учеников:
- Энди
- Карл
- Тайлер
- Бекка
- Джессика
Предположим, мы хотим взять выборку из 2 студентов без замены.
На первом рисунке мы могли бы выбрать имя Тайлера. Тогда мы оставим его имя в стороне. На втором рисунке мы могли выбрать имя Энди. Итак, наш образец будет таким: {Тайлер, Энди}
Это пример получения образца без замены, поскольку мы не заменяем выбранное нами имя после каждого рисунка.
Когда мы выполняем выборку без замены, элементы выборки являются зависимыми , поскольку на результат одного подбрасывания монеты влияет предыдущий подбрасывание монеты.
Например, вероятность выбора имени Тайлер составляет 1/5 на первом рисунке, а вероятность выбора имени Энди — 1/4 на втором рисунке. Исход первого розыгрыша влияет на вероятность исхода второго розыгрыша.
Выборка без замены — это метод, который мы используем, когда хотим выбрать случайную выборку из совокупности.
Например, если мы хотим оценить средний доход домохозяйства в Цинциннати, штат Огайо, всего может быть 500 000 различных домохозяйств.
Итак, мы можем захотеть собрать случайную выборку из 2000 домохозяйств, но мы не хотим, чтобы данные какого-либо конкретного домохозяйства появлялись в выборке дважды, поэтому мы будем выбирать без замены.
Другими словами, как только мы выбрали определенное домохозяйство для включения в выборку, мы не хотим иметь никаких шансов снова выбрать это домохозяйство для включения.