Кластерна вибірка в r: із прикладами
Дослідники часто беруть зразки з популяції та використовують дані з вибірки, щоб зробити висновки про популяцію в цілому.
Зазвичай використовуваним методом вибірки є кластерна вибірка , за якої сукупність поділяється на кластери, а всі члени певних кластерів вибираються для включення у вибірку.
У цьому підручнику пояснюється, як виконувати кластерну вибірку в R.
Приклад: кластерна вибірка в R
Припустимо, компанія, що пропонує екскурсії по місту, хоче опитати своїх клієнтів. З десяти турів, які вони пропонують на день, вони випадковим чином вибирають чотири тури та просять кожного клієнта оцінити свої враження за шкалою від 1 до 10.
Наступний код показує, як створити фальшивий кадр даних у R для роботи:
#make this example reproducible set.seed(1) #create data frame df <- data.frame(tour = rep(1:10, each=20), experience = rnorm(200, mean=7, sd=1)) #view first six rows of data frame head(df) tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
А наступний код показує, як отримати вибірку клієнтів шляхом випадкового вибору чотирьох відвідувань і включення кожного учасника цих відвідувань у вибірку:
#randomly choose 4 tour groups out of the 10 clusters <- sample( unique (df$tour), size=4, replace= F ) #define sample as all members who belong to one of the 4 tour groups cluster_sample <- df[df$tour %in% clusters, ] #view how many customers came from each tour table(cluster_sample$tour) 2 7 8 10 20 20 20 20
З результату ми бачимо, що:
- До вибірки увійшли 20 клієнтів туристичної групи №2.
- До вибірки увійшли 20 клієнтів з тургрупи №7.
- До вибірки увійшли 20 клієнтів з тургрупи №8.
- До вибірки увійшли 20 клієнтів з тургрупи №10.
Таким чином, ця вибірка складається з 80 клієнтів з 4 різних туристичних груп.
Пов’язане: як використовувати оператор %in% у R
Додаткові ресурси
Розуміння різних типів методів вибірки
Стратифікована вибірка в R
Систематична вибірка в Р