什么是代表性样本?为什么它很重要?


在统计学中,我们经常对研究特定人群的特征感兴趣。例如,我们可能有兴趣研究:

  • 某城市机械工程师的总体工作满意度。
  • 某个县个人的政治偏好。
  • 某个国家的个人年龄分布。
  • 某学校学生的电影喜好。

在每个例子中,我们都希望更好地了解特定人群

总体:您想要研究的整个人群。

不幸的是,收集人口中每个人的数据可能既昂贵又耗时。这就是为什么研究人员通常会收集人口样本的数据,然后将样本结果推广到整个人口。

样本:人口的一个子集。

例如,假设我们想要了解某所学校共有 1000 名学生的学生的电影偏好。由于单独调查每个学生需要很长时间,因此我们可以随机抽取 100 名学生并询问他们的偏好。

1,000 名学生代表总体,而 100 名随机选择的学生代表样本。一旦我们收集了 100 名学生样本的数据,我们就可以将这些结果推广到 1,000 名学生的总体中,但前提是我们的样本能够代表我们的总体

代表性样本:个体特征与总体特征紧密匹配的样本。

理想情况下,我们希望我们的样本类似于我们总体的“迷你版”。因此,如果整个学生人口由 50% 的女孩和 50% 的男孩组成,那么如果我们的样本包含 90% 的男孩和仅 10% 的女孩,则该样本将不具有代表性。

不代表总体的样本示例

或者,如果总人口中新生、二年级、三年级和四年级学生的比例相等,那么如果我们的样本仅包括新生,那么它就没有代表性。

样本不能代表总体

获得代表性样本的重要性

我们想要一个具有代表性的样本的原因是我们可以自信地将样本的结果推广到总体。

例如,假设我们想知道某所学校有多少学生喜欢“戏剧”作为他们最喜欢的电影类型。如果学生总人数由 50% 的男孩和 50% 的女孩混合,那么如果选择戏剧作为最喜欢的类型的男孩明显减少,那么由 90% 的男孩和 10% 的女孩组成的样本可能会导致有偏差的结果。

或者,如果总人口中新生、二年级、三年级和四年级学生的比例相等,那么如果年轻学生(例如新生)比新生更喜欢戏剧,则仅包含新生的样本也可能会导致有偏差的结果。年长的学生。

如果样本中个体的特征与总体人群中个体的特征不紧密匹配,那么我们就无法自信地将样本结果推广到总体中。

如何获得有代表性的样本

为了最大限度地提高获得代表性样本的机会,我们在获取样本时需要关注两件事:

1. 使用适当的采样方法。

获取总体样本的方法有很多种,但以下是可以获得代表性样本的三种方法:

简单随机样本:使用随机数生成器或随机选择方法随机选择个体。

  • 示例:为 1,000 名学生分配一个编号。接下来,使用随机数生成器随机选择 100 个数字,并使用相应的学生作为样本成员。
  • 优点:简单的随机样本通常可以代表感兴趣的总体,因为每个成员都有平等的机会被包含在样本中。

系统随机抽样:将总体中的每个成员按一定的顺序排列。选择一个随机起点并n 中选择一个成员作为样本的一部分。

  • 示例:根据所有 1,000 名学生的姓氏创建一个按字母顺序排列的列表,随机选择一个起点,并选择每 10 个学生作为样本。
  • 优点:系统随机样本通常能够代表感兴趣的总体,因为每个成员都有平等的机会被纳入样本。

分层随机样本:将总体分为几组。从每个组中随机选择一些成员作为样本的一部分。

  • 示例:根据级别将所有学生分为:一年级、二年级、三年级和四年级。从每个年级随机抽取 25 名学生作为样本。
  • 优点:分层随机样本可确保样本中包含每个年级的相同数量的学生。

2. 确保样本足够大。

除了使用适当的抽样方法之外,确保样本足够大也很重要,以便我们有足够的数据能够推广到更大的总体。

例如,八名学生的样本(每个年级一名男孩和一名女孩)可能代表整个人口的迷你版本,但它可能不足以捕捉学生反应中自然存在的所有变异性。

那么你的样本应该有多大?

这取决于以下因素:

  • 总体规模:一般来说,总体规模越大,样本就应该越大。例如,如果您想将结果推广到整个国家而不是单个城市,则需要更大的样本。
  • 置信水平:您对您感兴趣的群体的真实值在您的置信区间内的信心有多大。常见的置信水平包括 90%、95% 和 99%。置信度越高,样本就应该越大。
  • 误差幅度:你愿意容忍多少错误。没有任何样本是完美的,因此您必须愿意接受至少一定程度的错误。大多数研究报告的结果都有一定的误差范围,例如“40% 的学生表示戏剧是他们最喜欢的电影类型,误差范围为 +/- 5%”。 » 误差幅度越低,样本应该越小。

在线有许多样本量计算器可以帮助您根据这些因素确定样本量。 Survey Monkey 的这款计算器特别易于使用。

要记住的事情

即使您使用正确的抽样方法并确保样本足够大,也请记住以下几点:

  • 抽样误差总是存在的。样本永远无法完全代表整个人口。
  • 一般来说,样本越大,越能代表总体。
  • 您需要平衡样本量与现实世界的变量(例如时间和成本)。更大的样本可能更有可能代表总体,但获得样本的成本可能更高且更耗时。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注