置信水平和置信区间:有什么区别?
在统计学中,我们经常寻求测量总体参数——描述整个总体某些特征的数字。
例如,我们可能有兴趣测量某个国家男性的平均身高。
由于收集该国每个男性的身高数据过于昂贵且耗时,因此我们会收集简单的随机男性样本数据。然后,我们将使用该样本中男性的平均身高来估计该国所有男性的平均身高。
不幸的是,不能保证样本中男性的平均身高与整个人群中男性的平均身高完全匹配。例如,我们可以选择矮个子男性样本或高个子男性样本。
为了捕获对真实总体均值估计的不确定性,我们可以创建一个置信区间。
置信区间:可能包含具有一定置信水平的总体参数的值范围。
使用以下通用公式计算置信区间:
置信区间=(点估计)+/-(临界值)*(标准误差)
例如,计算总体平均值的置信区间的公式为:
置信区间 = x +/- z*(s/√ n )
金子:
- x :样本平均值
- z: z的临界值
- s:样本标准差
- n:样本量
您在公式中使用的临界 z 值取决于您选择的置信水平。
置信度:预期包含真实总体参数的所有可能样本的百分比。
最常见的置信水平选择是 90%、95% 和 99%。
下表显示了与这些流行的置信水平选择相对应的临界 z 值:
一定程度的信心 | z 临界值 |
---|---|
0.90 | 1,645 |
0.95 | 1.96 |
0.99 | 2.58 |
例如,假设我们测量了 25 名男性的身高,结果如下:
- 样本量n = 25
- 平均样品高度x = 70 英寸
- 样本标准偏差s = 1.2 英寸
以下是如何使用90% 置信水平计算真实平均总体规模的置信区间:
90% 置信区间:70 +/- 1.645*(1.2/√25) = [69.6052, 70.3948]
这意味着,如果我们使用相同的抽样方法选择不同的样本并计算每个样本的置信区间,我们预计真实的平均总体规模 90% 的时间都会落在该区间内。
现在假设我们使用95% 置信水平计算置信区间:
95% 置信区间:70 +/- 1.96*(1.2/√25) = [69.5296, 70.4704]
请注意,此置信区间比前一个更宽。事实上,置信水平越高,置信区间就越宽。
置信水平越高,置信区间越宽。
这应该具有直观意义:更广泛的置信水平包含真实总体参数的概率更高。
概括
总之:
置信区间是可能包含具有一定置信水平的总体参数的值范围。它使用以下基本公式:
置信区间 =(点估计)+/-(临界值)*(标准误差)
置信水平决定了该公式中使用的临界值。置信水平越高,临界值越大,因此置信区间越宽。