Відбір проб із заміною або без заміни
Часто в статистиці ми хочемо зібрати дані, щоб ми могли відповісти на певні запитання дослідження.
Наприклад, ми можемо захотіти відповісти на такі запитання:
1. Який середній дохід домогосподарства в Цинциннаті, штат Огайо?
2. Яка середня вага певної популяції черепах?
3. Який відсоток жителів певного округу підтримує певний закон?
У кожному сценарії ми хочемо відповісти на запитання про генеральну сукупність , яка представляє всі можливі окремі елементи, які ми хочемо виміряти.
Однак замість того, щоб збирати дані про кожну людину в популяції, ми зазвичай збираємо дані лише про вибірку популяції, яка представляє частину популяції.
Існує два способи збору проб: вибірка із заміною та вибірка без заміни .
У цьому підручнику пояснюється різниця між двома методами разом із прикладами використання кожного з них на практиці.
Відбір проб із заміною
Припустимо, у нас є імена 5 студентів у капелюсі:
- Енді
- Карл
- Тайлер
- Бекка
- Джессіка
Припустимо, ми хочемо взяти вибірку з 2 студентів із заміною.
На першому малюнку ми можемо вибрати ім’я Тайлера. Потім ми повертали його ім’я в капелюх і малювали знову. На другому малюнку ми можемо знову вибрати ім’я Тайлера. Отже, наш зразок буде таким: {Тайлер, Тайлер}
Це приклад отримання зразка із заміною, оскільки ми замінюємо назву, яку вибираємо після кожного малюнка.
Коли ми беремо вибірку із заміною, елементи вибірки є незалежними , оскільки на результат одного підкидання монети не впливає попередній підкидання монети.
Наприклад, ймовірність вибору імені Тайлер становить 1/5 на першому малюнку та знову 1/5 на другому малюнку. Результат першого розіграшу не впливає на ймовірність результату другого розіграшу.
Вибірка із заміною використовується в багатьох різних сценаріях статистики та машинного навчання, зокрема:
- Грунтування
- Укладання в мішки
- Простий вступ до вдосконалення машинного навчання
- Простий вступ до випадкових лісів
У кожному з цих методів використовується вибірка із заміною, оскільки це дозволяє використовувати один і той самий набір даних кілька разів для побудови моделей замість збору нових даних, що може зайняти багато часу та бути дорогим.
Проба без заміни
Знову припустімо, що у нас є імена 5 студентів у капелюсі:
- Енді
- Карл
- Тайлер
- Бекка
- Джессіка
Припустимо, ми хочемо взяти вибірку з 2 студентів без заміни.
На першому малюнку ми можемо вибрати ім’я Тайлера. Тоді ми залишимо його ім’я осторонь. На другому малюнку ми могли вибрати ім’я Енді. Отже, наш зразок буде таким: {Тайлер, Енді}
Це приклад отримання зразка без заміни, оскільки ми не замінюємо назву, яку вибираємо після кожного малюнка.
Коли ми беремо вибірку без заміни, елементи вибірки є залежними , оскільки результат одного підкидання монети залежить від попереднього підкидання монети.
Наприклад, ймовірність вибору імені Тайлер у першому розіграші становить 1/5, а ймовірність вибору імені Енді — 1/4 у другому розіграші. Результат першого розіграшу впливає на ймовірність результату другого розіграшу.
Вибірка без заміни — це метод, який ми використовуємо, коли хочемо вибрати випадкову вибірку із сукупності.
Наприклад, якщо ми хочемо оцінити середній дохід домогосподарства в Цинциннаті, штат Огайо, загалом може бути 500 000 різних домогосподарств.
Отже, ми можемо захотіти зібрати випадкову вибірку з 2000 домогосподарств, але ми не хочемо, щоб дані будь-якого домогосподарства з’являлися у вибірці двічі, тому ми будемо робити вибірку без заміни.
Іншими словами, коли ми вибрали певне домогосподарство для включення у вибірку, ми не хочемо мати жодних шансів обрати це домогосподарство для включення знову.