比例差异的置信区间
比例差异的置信区间 (CI)是可能包含具有一定置信度的两个总体比例之间的真实差异的值范围。
本教程解释了以下内容:
- 创建此置信区间的动机。
- 创建此置信区间的公式。
- 如何计算此置信区间的示例。
- 如何解释这个置信区间。
比例差异的 CI:动机
研究人员经常想要估计两个人口比例之间的差异。为了估计这种差异,他们将从每个群体中收集随机样本并计算每个样本的比例。然后他们可以比较两个比例之间的差异。
然而,他们无法确定样本比例之间的差异是否对应于总体比例之间的真实差异。这就是为什么他们可以为两个比例之间的差异创建一个置信区间。这提供了一系列可能包含人口比例之间真实差异的值。
例如,假设我们要估计 A 县支持某项法律的居民比例与 B 县支持该法律的居民比例之间的差异。
由于每个县有数千名居民,如果要对每个县的每个居民进行调查,既费时又费钱。
相反,我们可以对每个县的居民进行简单的随机抽样,并使用每个样本中赞成该法律的比例来估计两个县之间比例的真实差异:
由于我们的样本是随机的,因此不能保证两个样本之间的比例差异与两个总体之间的比例差异完全对应。因此,为了捕捉这种不确定性,我们可以创建一个包含一系列值的置信区间,这些值可能包含两个总体之间比例的真实差异。
比例差异 CI:公式
我们使用以下公式计算两个总体比例之间差异的置信区间:
置信区间 = (p 1 –p 2 ) +/- z*√(p 1 (1-p 1 )/n 1 + p 2 (1-p 2 )/n 2 )
金子:
- p 1 , p 2 : 样本1的比例,样本2的比例
- z:基于置信水平的 z 临界值
- n 1 , n 2 : 样本量 1, 样本量 2
您使用的 z 值取决于您选择的置信水平。下表显示了与最常见的置信水平选择相对应的 z 值:
一定程度的信心 | z值 |
---|---|
0.90 | 1,645 |
0.95 | 1.96 |
0.99 | 2.58 |
请注意,较高的置信水平对应于较大的 z 值,这会导致更宽的置信区间。这意味着,例如,对于同一数据集,95% 置信区间将比 90% 置信区间更宽。
比例差异的 CI:示例
假设我们要估计 A 县支持某项法律的居民比例与 B 县支持该法律的居民比例之间的差异。以下是每个样本的汇总数据:
样本1:
- n 1 = 100
- p 1 = 0.62(即 100 名居民中有 62 名支持该法律)
样本2:
- n2 = 100
- p 2 = 0.46(即 100 名居民中有 46 名支持该法律)
以下是如何找到人口比例差异的不同置信区间:
90% 置信区间:
(.62-.46) +/- 1.645*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0456, .2744]
95% 置信区间:
(.62-.46) +/- 1.96*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0236, .2964]
99% 置信区间:
(0.62-0.46) +/- 2.58*√(0.62(1-0.62)/100 + 0.46(1-0.46)/100) = [-0.0192, 0.3392]
注意:您还可以使用比例差值置信区间计算器查找这些置信区间。
CI 比例差异:解释
我们解释置信区间的方式是:
[.0236, .2964] 的置信区间有 95% 的可能性包含两个县之间支持法律的居民比例的真实差异。
由于该区间不包含值“0”,这意味着 A 县与 B 县支持该法律的居民比例很可能存在真正的差异。