如何在 r 中查找置信区间（附示例）

经过本杰明·安德森博 27 7 月, 2023 指导 0 条评论

置信区间是可能包含具有一定置信水平的总体参数的值范围。

根据以下通用公式计算：

置信区间=（点估计）+/-（临界值）*（标准误差）

此公式创建一个具有下限和上限的区间，其中可能包含具有一定置信度的总体参数：

置信区间=[下限，上限]

本教程介绍如何在 R 中计算以下置信区间：

1.平均值的置信区间

2.均值差异的置信区间

3.比例的置信区间

4.比例差异的置信区间

我们走吧！

示例 1：平均值的置信区间

我们使用以下公式来计算平均值的置信区间：

置信区间 = x +/- t _{n-1, 1-α/2} *(s/√n)

金子：

x ：样本平均值
t： t 临界值
s：样本标准差
n：样本量

示例：假设我们随机收集海龟样本，其中包含以下信息：

样本量n = 25
平均样本重量x = 300
样本标准差s = 18.5

下面的代码展示了如何计算海龟种群真实平均体重的 95% 置信区间：

 #input sample size, sample mean, and sample standard deviation
n <- 25
xbar <- 300 
s <- 18.5

#calculate margin of error
margin <- qt(0.975,df=n-1)*s/sqrt(n)

#calculate lower and upper bounds of confidence interval
low <- xbar - margin
low

[1] 292.3636

high <- xbar + margin
high

[1] 307.6364

海龟种群真实平均重量的 95% 置信区间为[292.36, 307.64] 。

示例 2：均值差异的置信区间

我们使用以下公式计算总体均值差异的置信区间：

置信区间= ( x ₁ – x ₂ ) +/- t*√((s _p ² /n ₁ ) + (s _p ² /n ₂ ))

金子：

x ₁ , x ₂ ：样本 1 的平均值，样本 2 的平均值
t：基于置信水平和 (n ₁ + n ₂ -2) 自由度的 t 临界值
s _p ² ：合并方差，计算公式为 ((n ₁ -1)s ₁ ² + (n ₂ -1)s ₂ ² ) / (n ₁ +n ₂ -2)
t：t 临界值
n ₁ , n ₂ : 样本量 1, 样本量 2

示例：假设我们想要估计两种不同种类的海龟之间的平均体重差异。因此，我们从每个种群中随机收集 15 只海龟样本。以下是每个样本的摘要数据：

样本1：

x1 = ₃₁₀
s ₁ = 18.5
n ₁ = 15

样本2：

x2 ₌ 300
_s2 = 16.4
_n2 = 15

以下代码显示如何计算总体均值的真实差异的 95% 置信区间：

 #input sample size, sample mean, and sample standard deviation
n1 <- 15
xbar1 <- 310 
s1 <- 18.5

n2 <- 15
xbar2 <- 300
s2 <- 16.4

#calculate pooled variance
sp = ((n1-1)*s1^2 + (n2-1)*s2^2) / (n1+n2-2)

#calculate margin of error
margin <- qt(0.975,df=n1+n2-1)*sqrt(sp/n1 + sp/n2)

#calculate lower and upper bounds of confidence interval
low <- (xbar1-xbar2) - margin
low

[1] -3.055445

high <- (xbar1-xbar2) + margin
high

[1] 23.05544

总体均值之间的真实差异的 95% 置信区间为[-3.06, 23.06] 。

示例 3：比例的置信区间

我们使用以下公式来计算比例的置信区间：

置信区间 = p +/- z*(√ p(1-p) / n )

金子：

p：样本比例
z：选择的z值
n：样本量

示例：假设我们要估计某个县赞成某项法律的居民比例。我们随机抽取 100 名居民作为样本，询问他们对法律的立场。结果如下：

样本量n = 100
支持该法律的比例p = 0.56

以下代码显示了如何计算支持该法律的全县居民真实比例的 95% 置信区间：

 #input sample size and sample proportion
n <- 100
p <- .56

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p*(1-p)/n)

#calculate lower and upper bounds of confidence interval
low <- p - margin
low

[1] 0.4627099

high <- p + margin
high

[1] 0.6572901

全县赞成该法律的居民真实比例的 95% 置信区间为[.463, .657] 。

示例 4：比例差异的置信区间

我们使用以下公式来计算比例差异的置信区间：

置信区间 = (p ₁ –p ₂ ) +/- z*√(p ₁ (1-p ₁ )/n ₁ + p ₂ (1-p ₂ )/n ₂ )

金子：

p ₁ , p ₂ : 样本1的比例，样本2的比例
z：基于置信水平的 z 临界值
n ₁ , n ₂ : 样本量 1, 样本量 2

示例：假设我们要估计 A 县支持某项法律的居民比例与 B 县支持该法律的居民比例之间的差异。以下是每个样本的汇总数据：

样本1：

n ₁ = 100
p ₁ = 0.62（即 100 名居民中有 62 名支持该法律）

样本2：

_n2 = 100
p ₂ = 0.46（即 100 名居民中有 46 名支持该法律）

以下代码显示了如何计算各县之间支持法律的居民比例的真实差异的 95% 置信区间：

 #input sample sizes and sample proportions
n1 <- 100
p1 <- .62

n2 <- 100
p2 <- .46

#calculate margin of error
margin <- qnorm(0.975)*sqrt(p1*(1-p1)/n1 + p2*(1-p2)/n2)

#calculate lower and upper bounds of confidence interval
low <- (p1-p2) - margin
low

[1] 0.02364509


high <- (p1-p2) + margin
high

[1] 0.2963549

各县之间支持该法律的居民比例的真实差异的 95% 置信区间为[0.024, 0.296] 。

您可以在此处找到更多 R 教程。

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多