中心极限定理:定义+示例


中心极限定理指出,如果样本量足够大,即使总体分布不正态,样本均值的抽样分布也近似正态

中心极限定理还指出,抽样分布将具有以下属性:

1.抽样分布的均值将等于总体分布的均值:

x = µ

2.抽样分布的方差将等于总体分布的方差除以样本量:

s2 = σ2 /n

中心极限定理的例子

这里有一些例子来说明实践中的中心极限定理。

均匀分布

假设乌龟壳的宽度服从均匀分布,最小宽度为 2 英寸,最大宽度为 6 英寸。也就是说,如果我们随机选择一只乌龟并测量它的壳的宽度,它也很可能在 2 到 6 英寸之间。

如果我们制作一个直方图来表示龟壳宽度的分布,它将如下所示:

中心极限定理的均匀分布示例
均匀分布的平均值为μ = (b+a) / 2,其中b是最大可能值, a是最小可能值。在这种情况下,它是 (6+2) / 2 = 4。

均匀分布的方差为σ2 = (ba) 2/12 。在这种情况下,它是 (6-2) 2/12 = 1.33

从均匀分布中随机抽取 2 个样本

现在想象一下,我们从这个种群中随机抽取 2 只海龟样本,并测量每只海龟壳的宽度。假设第一个海龟的壳有 3 英寸宽,第二个海龟的壳有 6 英寸宽。 2 只海龟样本的平均宽度为 4.5 英寸。

接下来,假设我们从该种群中随机抽取 2 只海龟,并再次测量每只海龟的壳宽度。假设第一个海龟的壳有 2.5 英寸宽,第二个海龟的壳也有 2.5 英寸宽。 2 只海龟样本的平均宽度为 2.5 英寸。

想象一下,我们一遍又一遍地从两只海龟身上随机抽取样本,并每次都找到平均壳宽度。

如果我们制作一个直方图来表示 2 只海龟的所有这些样本的平均壳宽度,它将如下所示:

均匀分布样本量 2 的中心极限定理
这称为样本均值的抽样分布,因为它显示了样本均值的分布。

该抽样分布的平均值为x = μ = 4

该抽样分布的方差为s2 = σ2 / n = 1.33 / 2 = 0.665

从均匀分布中随机抽取 5 个样本

现在想象我们重复相同的实验,但这次我们一次又一次地从 5 只海龟中随机抽取样本,并每次找到平均壳宽度。

如果我们制作一个直方图来表示 5 只海龟的所有这些样本的平均壳宽度,它将如下所示:

均匀样本量分布的中心极限定理 5
请注意,此分布更多地具有类似于正态分布的“钟形”形状。这是因为当我们抽取 5 个样本时,样本均值之间的方差要低得多,因此我们不太可能获得平均值接近 2 英寸或 6 英寸的样本,而更有可能获得平均值接近 2 英寸或 6 英寸的样本。 6英寸。该平均值与实际人口平均值更接近 4 英寸。

该抽样分布的平均值为x = μ = 4

该抽样分布的方差为s2 = σ2 / n = 1.33 / 5 = 0.266

从均匀分布中随机抽取 30 个样本

现在想象我们重复相同的实验,但这次我们一次又一次地从 30 只海龟中随机抽取样本,并每次找出平均壳宽度。

如果我们制作一个直方图来表示 30 只海龟的所有样本的平均壳宽度,它将如下所示:

样本量为 30 的中心极限定理
请注意,此采样分布比前两个分布更呈钟形且窄得多。

该抽样分布的平均值为x = μ = 4

该抽样分布的方差为s2 = σ2 / n = 1.33 / 30 = 0.044

卡方分布

假设某个城市每个家庭的宠物数量服从三个自由度的卡方分布。如果我们制作一个直方图来表示动物按科的分布,它将如下所示:

卡方分布的中心极限定理

卡方分布的平均值就是自由度 (df) 的数量。在这种情况下, μ = 3

卡方分布的方差为 2 * df。在这种情况下, σ2 = 2 * 3 = 6

随机抽取 2 个样本

想象一下,我们从这个群体中随机抽取 2 个家庭样本,并计算每个家庭中宠物的数量。假设第一家庭有 4 只宠物,第二家庭有 1 只宠物。 2 个家庭样本的平均宠物数量为 2.5 只。

然后想象我们从这个群体中随机抽取 2 个家庭样本,并再次计算每个家庭中宠物的数量。假设第一家庭有 6 只宠物,第二家庭有 4 只宠物。该 2 个家庭样本的平均宠物数量为 5 只。

想象一下,我们一遍又一遍地从两个家庭中随机抽取样本,并不断找出每次宠物的平均数量。

如果我们制作一个直方图来表示来自 2 个家庭的所有样本的平均宠物数量,它将如下所示:

卡方分布样本量为 2 的中心极限定理

该抽样分布的平均值为x = μ = 3

该抽样分布的方差为s 2 = σ 2 / n = 6 / 2 = 3

随机抽取 10 个样本

现在想象我们重复同样的实验,但这次我们一次又一次地随机抽取 10 个家庭的样本,每次都找出每个家庭的平均动物数量。

如果我们制作一个直方图来表示 10 个科的所有样本中每个科的平均动物数量,它将如下所示:

卡方分布的中心极限定理

该抽样分布的平均值为x = μ = 3

该抽样分布的方差为s2 = σ2 / n = 6/10 = 0.6

随机抽取 30 个样本

现在想象我们重复同样的实验,但这次我们一次又一次地随机抽取 30 个家庭的样本,每次都找出每个家庭的平均动物数量。

如果我们制作一个直方图来表示 30 个科的所有样本中每个科的平均动物数量,它将如下所示:

卡方分布的中心极限定理的直方图

该抽样分布的平均值为x = μ = 3

该抽样分布的方差为s2 = σ2 / n = 6/30 = 0.2

概括

以下是这两个示例的主要要点:

  • 如果样本量足够大,即使总体分布不正态,样本均值的抽样分布也近似正态。在上面的两个例子中,均匀分布和卡方分布都不是正态的(它们根本不是“钟”形的),但是当我们取足够大的样本时,样本均值的分布似乎变成了正常一点。
  • 样本量越大,样本均值的方差越低。

定义“足够大”

回想一下,中心极限定理指出,如果样本量“足够大” ,则样本均值的抽样分布近似正态,即使总体分布不正态。

对于应用中心极限定理的样本应该有多大没有确切的定义,但一般来说它取决于样本来自的总体分布的偏度:

  • 如果总体分布是对称的,有时小至 15 个样本就足够了。
  • 如果人口分布存在偏差,通常需要至少 30 人的样本。
  • 如果人口分布极度不均,则可能需要 40 人或更多人的样本。

请查看有关调节大样本的教程,了解有关此主题的更多信息。

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注