大样本的条件:定义和示例
在统计学中,我们经常希望使用样本通过假设检验或置信区间得出有关总体的结论。
我们在假设检验和置信区间中使用的大多数公式都假设给定样本大致遵循正态分布。
然而,为了安全地提出这个假设,我们需要确保我们的样本量足够大。具体来说,我们需要确保满足大样本条件。
大样本条件:样本量至少为30。
注:在一些教科书中,“足够大”的样本量被定义为至少 40 个,但更常用的数字是 30。
当满足这个条件时,可以假设样本均值的抽样分布近似正态。这一假设使我们能够使用样本来得出有关样本群体的结论。
之所以使用数字30,是基于中心极限定理。您可以在这篇 博文中阅读更多相关信息。
示例:检查大样本的状态
假设某台机器制造饼干。这些饼干的重量分布向右倾斜,平均值为 10 盎司,标准差为 2 盎司。如果我们对这台机器生产的 100 块饼干进行简单随机抽样,则该样本中饼干的平均重量小于 9.8 盎司的概率是多少?
为了回答这个问题,我们可以使用正态 CDF 计算器,但首先我们需要验证样本量是否足够大,可以假设采样均值的分布是正态的。
在这个例子中,我们的样本大小是n = 100 ,远大于 30。尽管事实上,真实的 cookie 权重分布向右倾斜,但由于我们的样本大小“足够大”,我们可以假设分布抽样均值是正常的。所以我们可以安全地使用普通的 CDF 计算器来解决这个问题。
大样本条件的变化
通常,如果样本量大于或等于 30,则被认为“足够大”,但该数字可能会因总体分布的基本形状而略有不同。
尤其:
- 如果总体分布是对称的,有时小至 15 个样本就足够了。
- 如果人口分布存在偏差,通常需要至少 30 人的样本。
- 如果人口分布极度不均,则可能需要 40 人或更多人的样本。
根据总体分布的形状,您可能需要大于或小于 30 的样本量才能应用中心极限定理。