中心极限定理:定义+示例
中心极限定理指出,如果样本量足够大,即使总体分布不正态,样本均值的抽样分布也近似正态。
中心极限定理还指出,抽样分布将具有以下属性:
1.抽样分布的均值将等于总体分布的均值:
x = µ
2.抽样分布的方差将等于总体分布的方差除以样本量:
s2 = σ2 /n
中心极限定理的例子
这里有一些例子来说明实践中的中心极限定理。
均匀分布
假设乌龟壳的宽度服从均匀分布,最小宽度为 2 英寸,最大宽度为 6 英寸。也就是说,如果我们随机选择一只乌龟并测量它的壳的宽度,它也很可能在 2 到 6 英寸宽之间。
如果我们制作一个直方图来表示龟壳宽度的分布,它将如下所示:
均匀分布的平均值为μ = (b+a) / 2,其中b是最大可能值, a是最小可能值。在这种情况下,它是 (6+2) / 2 = 4。
均匀分布的方差为σ2 = (ba) 2/12 。在这种情况下,它是 (6-2) 2/12 = 1.33
从均匀分布中随机抽取 2 个样本
现在想象一下,我们从这个种群中随机抽取 2 只海龟样本,并测量每只海龟壳的宽度。假设第一个海龟的壳有 3 英寸宽,第二个海龟的壳有 6 英寸宽。 2 只海龟样本的平均宽度为 4.5 英寸。
接下来,假设我们从该种群中随机抽取 2 只海龟,并再次测量每只海龟的壳宽度。假设第一个海龟的壳有 2.5 英寸宽,第二个海龟的壳也有 2.5 英寸宽。 2 只海龟样本的平均宽度为 2.5 英寸。
想象一下,我们一遍又一遍地从两只海龟身上随机抽取样本,并每次都找到平均壳宽度。
如果我们制作一个直方图来表示 2 只海龟的所有这些样本的平均壳宽度,它将如下所示:
这称为样本均值的抽样分布,因为它显示了样本均值的分布。
该抽样分布的平均值为x = μ = 4
该抽样分布的方差为s2 = σ2 / n = 1.33 / 2 = 0.665
从均匀分布中随机抽取 5 个样本
现在想象我们重复相同的实验,但这次我们一次又一次地从 5 只海龟中随机抽取样本,并每次找到平均壳宽度。
如果我们制作一个直方图来表示 5 只海龟的所有这些样本的平均壳宽度,它将如下所示:
请注意,此分布更多地具有类似于正态分布的“钟形”形状。这是因为当我们抽取 5 个样本时,样本均值之间的方差要低得多,因此我们不太可能获得平均值接近 2 英寸或 6 英寸的样本,而更有可能获得平均值接近 2 英寸或 6 英寸的样本。 6英寸。该平均值与实际人口平均值更接近 4 英寸。
该抽样分布的平均值为x = μ = 4
该抽样分布的方差为s2 = σ2 / n = 1.33 / 5 = 0.266
从均匀分布中随机抽取 30 个样本
现在想象我们重复相同的实验,但这次我们一次又一次地从 30 只海龟中随机抽取样本,并每次找出平均壳宽度。
如果我们制作一个直方图来表示 30 只海龟的所有样本的平均壳宽度,它将如下所示:
请注意,此采样分布比前两个分布更呈钟形且窄得多。
该抽样分布的平均值为x = μ = 4
该抽样分布的方差为s2 = σ2 / n = 1.33 / 30 = 0.044
卡方分布
假设某个城市每个家庭的宠物数量服从三个自由度的卡方分布。如果我们制作一个直方图来表示动物按科的分布,它将如下所示:
卡方分布的平均值就是自由度 (df) 的数量。在这种情况下, μ = 3 。
卡方分布的方差为 2 * df。在这种情况下, σ2 = 2 * 3 = 6 。
随机抽取 2 个样本
想象一下,我们从这个群体中随机抽取 2 个家庭样本,并计算每个家庭中宠物的数量。假设第一家庭有 4 只宠物,第二家庭有 1 只宠物。 2 个家庭样本的平均宠物数量为 2.5 只。
然后想象我们从这个群体中随机抽取 2 个家庭样本,并再次计算每个家庭中宠物的数量。假设第一家庭有 6 只宠物,第二家庭有 4 只宠物。该 2 个家庭样本的平均宠物数量为 5 只。
想象一下,我们一遍又一遍地从两个家庭中随机抽取样本,并不断找出每次宠物的平均数量。
如果我们制作一个直方图来表示来自 2 个家庭的所有样本的平均宠物数量,它将如下所示:
该抽样分布的平均值为x = μ = 3
该抽样分布的方差为s 2 = σ 2 / n = 6 / 2 = 3
随机抽取 10 个样本
现在想象我们重复同样的实验,但这次我们一次又一次地随机抽取 10 个家庭的样本,每次都找出每个家庭的平均动物数量。
如果我们制作一个直方图来表示 10 个科的所有样本中每个科的平均动物数量,它将如下所示:
该抽样分布的平均值为x = μ = 3
该抽样分布的方差为s2 = σ2 / n = 6/10 = 0.6
随机抽取 30 个样本
现在想象我们重复同样的实验,但这次我们一次又一次地随机抽取 30 个家庭的样本,每次都找出每个家庭的平均动物数量。
如果我们制作一个直方图来表示 30 个科的所有样本中每个科的平均动物数量,它将如下所示:
该抽样分布的平均值为x = μ = 3
该抽样分布的方差为s2 = σ2 / n = 6/30 = 0.2
概括
以下是这两个示例的主要要点:
- 如果样本量足够大,即使总体分布不正态,样本均值的抽样分布也近似正态。在上面的两个例子中,均匀分布和卡方分布都不是正态的(它们根本不是“钟”形的),但是当我们取足够大的样本时,样本均值的分布似乎变成了正常一点。
- 样本量越大,样本均值的方差越低。
定义“足够大”
回想一下,中心极限定理指出,如果样本量“足够大” ,则样本均值的抽样分布近似正态,即使总体分布不正态。
对于应用中心极限定理的样本应该有多大没有确切的定义,但一般来说它取决于样本来自的总体分布的偏度:
- 如果总体分布是对称的,有时小至 15 个样本就足够了。
- 如果人口分布存在偏差,通常需要至少 30 人的样本。
- 如果人口分布极度不均,则可能需要 40 人或更多人的样本。
请查看有关调节大样本的教程,了解有关此主题的更多信息。