Кластерна вибірка в pandas: із прикладами
Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.
Зазвичай використовуваним методом вибірки є кластерна вибірка , за якої сукупність поділяється на кластери, а всі члени певних кластерів вибираються для включення у вибірку.
У цьому підручнику пояснюється, як виконати кластерну вибірку на pandas DataFrame у Python.
Приклад: кластерна вибірка в Pandas
Припустимо, компанія, що пропонує екскурсії по місту, хоче опитати своїх клієнтів. З десяти турів, які вони пропонують на день, вони випадковим чином вибирають чотири тури та просять кожного клієнта оцінити свої враження за шкалою від 1 до 10.
Наступний код показує, як створити pandas DataFrame для роботи:
import pandas as pd import numpy as np #make this example reproducible n.p. random . seeds (0) #createDataFrame df = pd.DataFrame({'tour': np. repeat (np. arange (1,11), 20), 'experience': np. random . normal (loc=7, scale=1, size=200)}) #view first six rows of DataFrame df. head () tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
А наступний код показує, як отримати вибірку клієнтів шляхом випадкового вибору чотирьох відвідувань і включення кожного учасника цих відвідувань у вибірку:
#randomly choose 4 tour groups out of the 10 clusters = np. random . choice (np. arange (1,11), size=4, replace= False ) #define sample as all members who belong to one of the 4 tour groups cluster_sample = df[df[' tour ']. isin (clusters)] #view first six rows of sample cluster_sample. head () tour experience 40 3 5.951447 41 3 5.579982 42 3 5.293730 43 3 8.950775 44 3 6.490348 #find how many observations came from each tour group cluster_sample[' tour ']. value_counts () 10 20 6 20 5 20 3 20 Name: tour, dtype: int64
З результату ми бачимо, що:
- До вибірки увійшли 20 клієнтів з тургрупи №10.
- До вибірки увійшли 20 клієнтів туристичної групи №6.
- До вибірки увійшли 20 клієнтів туристичної групи №5.
- До вибірки увійшли 20 клієнтів туристичної групи №3.
Таким чином, ця вибірка складається з 80 клієнтів з 4 різних туристичних груп.
Додаткові ресурси
Розуміння різних типів методів вибірки
Стратифікована вибірка у панд
Систематичний відбір проб панд