什么是好的置信区间?
置信区间是可能包含具有一定置信水平的总体参数的值范围。
学生经常问的一个问题是:
什么被认为是良好的置信区间?
答案:一般来说,窄置信区间更可取,因为它们为我们提供了一个窄范围的值,我们确信这些值包含某些总体参数。
例如,假设我们要估计某种植物物种的平均高度并创建以下 95% 置信区间:
95% 置信区间 = [12.5 英寸, 60.5 英寸]
将此与以下 95% 置信区间进行比较:
95% 置信区间 = [34 英寸, 39 英寸]
第二个置信区间要窄得多,可以让我们更准确地了解真实的平均人口规模。
然而,为了获得狭窄的置信区间,我们需要增加样本量,这在实际研究中并不总是实用的。
为了说明这一点,请考虑以下示例。
示例:置信区间的计算
要计算总体平均值的置信区间,我们可以使用以下公式:
置信区间 = x ± z*(s/√ n )
金子:
- x :样本平均值
- z:选择的z值
- s:样本标准差
- n:样本量
您使用的 z 值取决于您选择的置信水平。下表显示了与最常见的置信水平选择相对应的 z 值:
一定程度的信心 | z值 |
---|---|
0.90 | 1,645 |
0.95 | 1.96 |
0.99 | 2.58 |
例如,假设我们随机收集 25 种植物的样本,其中包含以下信息:
- 样本量n = 25
- 平均样品高度x = 36.5 英寸
- 样本标准偏差s = 18.5 英寸
以下是计算真实平均总体规模的 95% 置信区间的方法:
95% 置信区间: 36.5 ± 1.96*(18.5/√ 25 ) = [29.248, 43.752]
我们将此区间解释为意味着我们 95% 确信该植物物种的真实平均种群高度在 29.248 英寸至 43.752 英寸之间。
现在假设我们收集 100 株植物的随机样本,其中包含以下信息:
- 样本量n = 100
- 平均样品高度x = 36.5 英寸
- 样本标准偏差s = 18.5 英寸
以下是计算真实平均总体规模的 95% 置信区间的方法:
95% 置信区间: 36.5 ± 1.96*(18.5/√ 100 ) = [32.874, 40.126]
我们将此区间解释为意味着我们 95% 确信该植物物种的真实平均种群高度在 32.874 英寸至 40.126 英寸之间。
请注意,通过简单地增加样本量,我们能够为总体平均值生成更窄的置信区间。
在现实情况下,研究人员更喜欢第二个区间,因为它可以让他们更精确地了解真实总体均值可能包含的值的范围。
然而,收集更大的样本量通常会耗费更多时间和资源,因此实际上这样做并不总是可行。
另请记住,某些数据集的数据变化较大,导致样本标准差值较高。这自然会导致宽置信区间。
因此,为了创建“窄”置信区间,研究人员实际上可以控制的唯一变量是样本量。
结论
以下是本文要点的简要总结:
1.研究人员通常认为“好的”置信区间是一个狭窄的区间。
2.通过增加样本量,研究人员可以得出更窄的置信区间。
3.什么被认为是“窄”置信区间因领域而异,因为某些类型的数据自然会比其他类型的数据表现出更高的变异性。
其他资源
以下教程提供有关置信区间的其他信息: