中心极限定理:需满足的四个条件
中心极限定理指出,如果样本量足够大,即使总体分布不正态,样本均值的抽样分布也近似正态。
要应用中心极限定理,必须满足四个条件:
1.随机化:数据应随机抽样,以便总体中的每个成员都有相同的概率被选为样本的一部分。
2.独立性:样本的值必须相互独立。
3. 10%条件:无放回抽取样本时,样本量不应超过总体的10%。
4、样本量大的条件:样本量要足够大。
本教程提供了每个条件的简要说明。
条件1:随机化
为了应用中心极限定理,我们使用的数据必须使用概率抽样方法从总体中随机抽样。
在统计学中,有两种抽样方法:
1. 概率抽样方法:总体中每个成员都有相同概率被选为样本一部分的抽样方法。示例包括:
- 简单随机样本
- 分层随机样本
- 聚类随机样本
- 系统随机抽样
2. 非概率抽样方法:总体中每个成员被选为样本的概率不同的抽样方法。示例包括:
使用概率抽样方法来获取样本非常重要,因为这可以最大限度地提高获得总体代表性样本的机会。
条件2:独立性
为了应用中心极限定理,我们还必须假设样本中的每个值都是相互独立的。换句话说,一个事件的发生不会影响另一事件的发生。
如果我们使用概率抽样方法,则通常会满足此假设,因为这些类型的抽样方法完全独立地选择将哪些观测值包含在样本中。
条件3:10%条件
当不放回抽取样本时(几乎总是这种情况),样本量不应超过总人口的 10%。
例如:
- 如果我们的人口规模是500人,那么我们的样本量不应超过50人。
- 如果我们的人口规模是1000人,那么我们的样本不应超过100人。
- 如果我们的人口规模是50,000人,那么我们的样本量不应超过5,000人。
等等。
条件4:大样本条件
最后,为了应用中心极限定理,我们的样本量必须足够大。
一般来说,我们认为“足够大”是30或更多。然而,这个数字可能会略有不同,具体取决于人口分布的基本形状。
尤其:
- 如果总体分布是对称的,有时小至 15 个样本就足够了。
- 如果人口分布存在偏差,通常需要至少 30 人的样本。
- 如果人口分布极度不均,则可能需要 40 人或更多人的样本。
根据总体分布的形状,您可能需要大于或小于 30 的样本量才能应用中心极限定理。