分层抽样

在本文中,我们解释什么是分层抽样以及它是如何进行的。在这里您将找到分层抽样子类型的解释以及分层抽样的优点和缺点。

什么是分层抽样?

分层抽样是一种统计方法,用于通过将总体分组(称为分层)来选择样本元素。也就是说,在分层抽样中,将总体分为若干层,并从每个层中随机选择个体来形成整个研究样本。

阶层是同质群体,或者换句话说,一个阶层中的个体有自己区别于其他阶层的特征。因此,一个人只能属于一个阶层。

分层抽样

当总体由非常同质且彼此差异很大的群体组成时,分层抽样非常有用。

从逻辑上讲,所有层的大小之和给出了统计总体的大小:

N=N_1+N_2+N_3+\dots+N_k

同样,每个层中选择的样本量之和等于统计研究的总样本量:

n=n_1+n_2+n_3+\dots+n_k

我们通常区分大小写字母来分别指定总体或样本。

如何进行分层抽样

分层抽样的步骤如下:

  1. 定义目标人群。
  2. 选择变量分层以及有多少层。
  3. 确定人口中的每个元素属于哪个阶层。
  4. 计算将成为样本一部分的每个层的大小
  5. 从每个层中随机选择属于研究样本的元素。对于每个层,必须选择上一步中决定的尽可能多的元素。

请记住,每个层在样本中所代表的大小不仅取决于层的大小,还取决于分层抽样的类型。接下来,通过示例解释每种类型的分层抽样以及如何计算每个层的样本量。

分层抽样的类型

现在你知道了分层抽样的定义,你应该知道分层抽样有几种类型,分类如下:

  • 比例分层抽样
  • 均匀分层抽样
  • 采样是最佳的

下面详细解释每种类型的分层抽样,以便更好地理解每种类型的含义。

比例分层抽样

分层比例抽样或比例分配抽样中,作为研究样本一部分的每个层的元素数量与每个层的规模成正比。

因此,如果一个层比另一层大,则最终样本将包含来自该层的更多元素。另一方面,如果一个层小于另一个层,则统计分析样本中该层的元素就会较少。

当层大小不同并且我们希望样本包含来自较大层的更多元素时,这种类型的分层抽样非常有用。

计算样本中每个层的元素数量,每个层的大小必须除以所有层的大小之和。结果将是样本中应包含的层的比例,因此需要乘以所需的样本量。

n_i=n\cdot \cfrac{N_i}{N_1+N_2+\dots +N_k}=n\cdot \cfrac{N_i}{N}

金子

n

是所需的总样本量,

n_i

层中元素的数量

i

包含在样本中,

N_i

地层大小

i

, 和

N

总体中的元素总数。

例如,假设我们想要在一家拥有 150 名员工的公司中进行一项研究,抽取 50 名员工的样本,并根据员工的年龄对数据进行分层。我们可以将数据分类如下:

  • 20岁至29岁:35名工人
  • 30岁至39岁:57名员工
  • 40岁至49岁:42名员工
  • 50岁至59岁:16名员工

因此,如果我们按比例对数据进行分层,抽样将如下:

比例分层抽样

均匀分层抽样

均匀分层抽样或均匀附加抽样中,作为研究样本一部分的每个层的元素数量是相等的。

因此,在这种类型的抽样中,每个层都具有相同的权重。无论一个阶层比另一个阶层拥有更多或更少的个体,所有阶层在样本中都将由相同数量的个体代表。

在这种情况下,要计算每个层中元素的大小,必须将所需样本大小除以现有层的数量。换句话说,应该使用以下公式:

n_i=\cfrac{n}{k}

金子

n

是所需的总样本量,

n_i

层中元素的数量

i

谁将包含在样本中,以及

k

人口被划分为的阶层数量。

按照前面的示例,由于我们想要 50 名工人作为样本,总共有 4 个不同的层,因此每个层的样本量为:

n_i=\cfrac{50}{4}=12,5

结果是一个十进制数,一些层将有 12 名工人,其他层将有 13 名工人,直到达到 50 名工人。所以均匀分层抽样如下:

均匀分层抽样

正如您所看到的,每个层的样本量与每个层的比例无关。

最优分层抽样

最佳分层抽样中,每个层中的元素数量按比例取决于每个层的变异性。

因此,变异性较大的地层将具有较大的样本量,反之亦然,变异性较小的地层将具有较小的样本量。

用于确定每个层中有多少元素将成为统计研究样本的一部分的公式如下:

n_i=n\cdot \cfrac{\sigma_i\cdot N_i}{\displaystyle \sum_{j=1}^k \sigma_j\cdot N_j }

金子

n

是所需的总样本量,

n_i

是层中的元素数量

i

包含在样本中,

\sigma_i

是层的标准偏差(或典型偏差)

i

, 和

N_i

是地层的大小

i

分层抽样的优点和缺点

分层抽样有以下优点和缺点:

优势 缺点
它不仅可以对整个人口进行统计研究,还可以对每个特定阶层进行统计研究。 这是一种实施起来很复杂的采样方法。
分层抽样所带来的抽样误差总是等于或小于简单随机抽样的抽样误差。 这是一个耗时且昂贵的采样过程。
它使您能够利用研究人员对人群的了解。 需要有关分析样本的大量信息才能对其进行分层。
通过分层抽样,我们确保样本中至少包含每个层的一个元素。 有必要知道每个层的比例才能进行抽样。

分层抽样的主要特点是它用于对总体划分的每个组或层进行统计分析。当然,也可以通过这种类型的抽样来研究整个人群。此外,如果分层彼此不同,数据分层的好处将会更大。

相反,对数据进行分层以便能够进行抽样的事实意味着抽样复杂性的增加,与其他类型的抽样相比,分层抽样的实施更加复杂。此属性还意味着制作样本的成本很高,因为正确进行分层需要时间。

分层抽样的另一个缺点是,它需要有关想要研究的总体的大量信息,而这在其他类型的抽样(例如简单随机抽样)中是不必要的。尽管如果研究人员在该领域拥有丰富的知识,则可以减轻这一缺点。

最后,通过分层抽样,我们获得的样本比其他类型的抽样更能代表总体,因为我们确保包含每个层的元素。相反,在其他样品中,所得样品可能不包含来自任何地层的任何元素。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注