统计中的通过/失败条件是什么?
伯努利试验是一种只有两种可能结果的实验——“成功”或“失败”——并且每次进行实验的成功概率都是相同的。
伯努利文章的一个例子是抛硬币。硬币只能落在两个正面上(我们可以将正面称为“命中”,反面称为“失败”),并且假设硬币是公平的,每次翻转成功的概率为 0.5。
通常在统计学中,当我们想要计算涉及多个伯努利试验的概率时,我们使用正态分布作为近似值。然而,要做到这一点,我们需要检查是否满足通过/失败条件:
通过/失败条件:样本中必须至少有 10 次预期成功和 10 次预期失败,才能使用正态分布作为近似值。
用符号写成,我们需要检查以下两件事:
- 预期成功次数至少为 10: np ≥ 10
- 预期失败次数至少为 10: n(1-p) ≥ 10
其中n是样本大小, p是给定试验的成功概率。
注意:有些手册反而说只需要 5 次预期成功和 5 次预期失败即可使用正态近似值。然而,10 更常用,并且是一个更保守的数字。因此我们将在本教程中使用这个数字。
示例:检查通过/失败条件
假设我们要为一个县中支持某项法律的居民比例创建一个置信区间。我们随机抽取 100 名居民作为样本,询问他们对法律的立场。结果如下:
- 样本量n = 100
- 支持该法律的比例p = 0.56
我们想使用以下公式来计算置信区间:
置信区间 = p +/- z*√ p(1-p) / n
金子:
- p:样本比例
- z:正态分布对应的z值
- n:样本量
此公式使用正态分布中的 z 值。所以在这个公式中我们使用正态分布来近似二项式分布。
然而,要做到这一点,我们需要验证是否满足通过/失败条件。让我们检查一下样本中的成功数和失败数至少为 10:
成功次数:np = 100*.56 = 56
失败次数:n(1-p) = 100*(1-.56) = 44
两个数字都等于或大于 10,因此我们可以使用上面的公式来计算置信区间。
其他资源
使用正态分布作为二项式分布的近似值必须满足的另一个条件是我们使用的样本量不超过总体规模的 10%。这称为 10% 条件。
另请记住,如果您使用两个比例(例如, 为比例之间的差异创建置信区间),则需要检查两个样本中成功和失败的预期数量是否至少为 10。