R 中的聚类采样:示例


研究人员经常从人群中抽取样本,并利用样本中的数据得出关于整个人群的结论。

常用的抽样方法是整群抽样,其中将总体分为多个簇,并选择某些簇的所有成员包含在样本中。

本教程介绍如何在 R 中执行聚类采样。

示例:R 中的聚类采样

假设一家提供城市旅游的公司想要对其客户进行调查。他们每天提供 10 个旅行团,随机选择 4 个旅行团,并要求每位顾客按照 1 到 10 的等级对他们的体验进行评分。

以下代码展示了如何在 R 中创建一个假数据框来使用:

 #make this example reproducible
set.seed(1)

#create data frame
df <- data.frame(tour = rep(1:10, each=20),
                 experience = rnorm(200, mean=7, sd=1))

#view first six rows of data frame
head(df)

  tour experience
1 1 6.373546
2 1 7.183643
3 1 6.164371
4 1 8.595281
5 1 7.329508
6 1 6.179532

以下代码展示了如何通过随机选择四次访问并将这些访问中的每个成员都包含在样本中来获取客户样本:

 #randomly choose 4 tour groups out of the 10
clusters <- sample( unique (df$tour), size=4, replace= F )

#define sample as all members who belong to one of the 4 tour groups
cluster_sample <- df[df$tour %in% clusters, ]

#view how many customers came from each tour
table(cluster_sample$tour)

 2 7 8 10 
20 20 20 20 

从结果我们可以看出:

  • 样本中包括来自 2 号旅游团的 20 名顾客。
  • 样本中包括来自 7 号旅行团的 20 名顾客。
  • 样本中包括来自 8 号旅行团的 20 名顾客。
  • 样本中包括来自 10 号旅行团的 20 名顾客。

因此,该样本由来自 4 个不同旅游团的 80 名顾客组成。

相关: 如何在 R 中使用 %in% 运算符

其他资源

了解不同类型的抽样方法
R 中的分层抽样
R 中的系统抽样

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注