置信区间
本文解释了统计学中的置信区间是什么以及它的用途。您还将找到影响置信区间的因素以及置信区间的计算方式。
什么是置信区间?
在统计学中,置信区间是一个给出近似值的区间,在这些值之间,总体参数的值与一定的置信水平相关联。最常见的置信区间的置信水平为 95% 或 99%。
例如,如果置信水平为 95% 的总体平均值的置信区间为 (3.7),则这意味着所研究总体的平均值将在 3 到 7 之间,概率为 95%。
因此,置信区间用于估计总体参数所在的两个值。通常,总体参数的值是未知的,因此根据样本中的数据计算置信区间以对总体参数进行估计。
影响置信区间的因素
一旦我们了解了置信区间的定义,我们就会了解置信区间取决于哪些因素,以便更好地理解这个概念。
- 样本大小:研究的观测值数量影响置信区间的精度,因为我们拥有的数据越多,可以估计的值就越多。一般来说,样本量越大,置信区间的宽度越小。
- 误差幅度:允许误差越大,置信区间越大,因此参数的真实值越有可能落在置信区间内。然而,误差幅度会降低置信区间的精度。
- 置信水平:总体统计估计值位于置信区间内的概率。通常,区间的置信水平表示为 1-α 并表示为百分比。高置信水平会增加真实值位于区间界限之间的概率,但也会增加区间的宽度。
- 估计参数:置信区间取决于要近似的参数。事实上,用于计算置信区间的公式取决于近似参数。
如何计算置信区间
下面列出了用于计算每种类型置信区间的公式,因为根据我们是否要确定均值、方差或比例的置信区间,要使用的公式是不同的。
平均值的置信区间
从输入变量的过程如下完成这一事实开始:
平均值的置信区间是通过在样本平均值中加上和减去 Z α/2的值乘以标准差 (σ) 再除以样本大小 (n) 的平方根来计算的。因此,均值置信区间的计算公式为:
对于大样本量和 95% 置信水平,临界值为 Z α/2 = 1.96;对于 99% 置信水平,临界值为 Z α/2 = 2.576。
当总体方差已知时,使用上述公式。但是,如果总体方差未知(这是最常见的情况),则使用以下公式计算平均值的置信区间:
金子:
-
是样本均值。
-
是 n-1 个自由度的 Student t 分布的值,概率为 α/2。
-
是样本标准差。
-
是样本大小。
方差的置信区间
为了计算总体方差的置信区间,使用卡方分布。更具体地说,计算方差置信区间的公式为:
金子:
-
是样本大小。
-
是样本标准差。
-
是具有 n-1 个自由度且概率小于 α/2 的卡方分布的值。
-
是具有 n-1 个自由度、概率大于 1-α/2 的卡方分布的值。
比例的置信区间
比例的置信区间是通过从样本比例中添加和减去 Z α/2的值乘以样本比例的平方根 (p) 乘以 1-p 再除以样本大小 (n) 来计算的。因此,计算比例置信区间的公式为:
金子:
-
是样本比例。
-
是样本大小。
-
是对应于 α/2 概率的标准正态分布的分位数。对于大样本量和 95% 置信水平,它通常接近 1.96;对于 99% 置信水平,它通常接近 2.576。