比例差异的置信区间

经过本杰明·安德森博 28 7 月, 2023 指导 0 条评论

比例差异的置信区间 (CI)是可能包含具有一定置信度的两个总体比例之间的真实差异的值范围。

本教程解释了以下内容：

研究人员经常想要估计两个人口比例之间的差异。为了估计这种差异，他们将从每个群体中收集随机样本并计算每个样本的比例。然后他们可以比较两个比例之间的差异。

然而，他们无法确定样本比例之间的差异是否对应于总体比例之间的真实差异。这就是为什么他们可以为两个比例之间的差异创建一个置信区间。这提供了一系列可能包含人口比例之间真实差异的值。

例如，假设我们要估计 A 县支持某项法律的居民比例与 B 县支持该法律的居民比例之间的差异。

由于每个县有数千名居民，如果要对每个县的每个居民进行调查，既费时又费钱。

相反，我们可以对每个县的居民进行简单的随机抽样，并使用每个样本中赞成该法律的比例来估计两个县之间比例的真实差异：

由于我们的样本是随机的，因此不能保证两个样本之间的比例差异与两个总体之间的比例差异完全对应。因此，为了捕捉这种不确定性，我们可以创建一个包含一系列值的置信区间，这些值可能包含两个总体之间比例的真实差异。

我们使用以下公式计算两个总体比例之间差异的置信区间：

置信区间 = (p ₁ –p ₂ ) +/- z*√(p ₁ (1-p ₁ )/n ₁ + p ₂ (1-p ₂ )/n ₂ )

金子：

您使用的 z 值取决于您选择的置信水平。下表显示了与最常见的置信水平选择相对应的 z 值：

请注意，较高的置信水平对应于较大的 z 值，这会导致更宽的置信区间。这意味着，例如，对于同一数据集，95% 置信区间将比 90% 置信区间更宽。

假设我们要估计 A 县支持某项法律的居民比例与 B 县支持该法律的居民比例之间的差异。以下是每个样本的汇总数据：

样本1：

样本2：

以下是如何找到人口比例差异的不同置信区间：

90% 置信区间：

(.62-.46) +/- 1.645*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0456, .2744]

95% 置信区间：

(.62-.46) +/- 1.96*√(.62(1-.62)/100 + .46(1-.46)/100) = [.0236, .2964]

99% 置信区间：

(0.62-0.46) +/- 2.58*√(0.62(1-0.62)/100 + 0.46(1-0.46)/100) = [-0.0192, 0.3392]

注意：您还可以使用比例差值置信区间计算器查找这些置信区间。

我们解释置信区间的方式是：

[.0236, .2964] 的置信区间有 95% 的可能性包含两个县之间支持法律的居民比例的真实差异。

由于该区间不包含值“0”，这意味着 A 县与 B 县支持该法律的居民比例很可能存在真正的差异。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多