Кластерная выборка в r: с примерами
Исследователи часто берут образцы из популяции и используют данные выборки, чтобы сделать выводы о популяции в целом.
Обычно используемым методом выборки является кластерная выборка , при которой совокупность делится на кластеры и все члены определенных кластеров выбираются для включения в выборку.
В этом руководстве объясняется, как выполнить кластерную выборку в R.
Пример: кластерная выборка в R
Допустим, компания, предлагающая экскурсии по городу, хочет опросить своих клиентов. Из десяти туров, которые они предлагают в день, они случайным образом выбирают четыре тура и просят каждого клиента оценить свои впечатления по шкале от 1 до 10.
Следующий код показывает, как создать поддельный фрейм данных в R для работы:
#make this example reproducible set.seed(1) #create data frame df <- data.frame(tour = rep(1:10, each=20), experience = rnorm(200, mean=7, sd=1)) #view first six rows of data frame head(df) tour experience 1 1 6.373546 2 1 7.183643 3 1 6.164371 4 1 8.595281 5 1 7.329508 6 1 6.179532
Следующий код показывает, как получить выборку клиентов, случайным образом выбрав четыре посещения и включив в выборку каждого участника этих посещений:
#randomly choose 4 tour groups out of the 10 clusters <- sample( unique (df$tour), size=4, replace= F ) #define sample as all members who belong to one of the 4 tour groups cluster_sample <- df[df$tour %in% clusters, ] #view how many customers came from each tour table(cluster_sample$tour) 2 7 8 10 20 20 20 20
По результату мы видим, что:
- В выборку вошли 20 клиентов туристической группы №2.
- В выборку вошли 20 клиентов тургруппы №7.
- В выборку вошли 20 клиентов тургруппы №8.
- В выборку вошли 20 клиентов тургруппы №10.
Таким образом, данная выборка состоит из 80 клиентов из 4 различных туристических групп.
Связано: Как использовать оператор %in% в R
Дополнительные ресурсы
Понимание различных типов методов отбора проб
Стратифицированная выборка в R
Систематическая выборка в R