完整指南:r 中的假设检验


假设检验是一种正式的统计检验,我们用它来拒绝或未能拒绝统计假设。

本教程介绍如何在 R 中执行以下假设检验:

  • 样本 t 检验
  • 两样本 T 检验
  • 配对样本 t 检验

我们可以使用 R 中的t.test()函数来执行每种类型的测试:

 #one sample t-test
t. test (x, y = NULL,
       alternative = c(" two.sided ", " less ", " greater "),
       mu = 0, paired = FALSE, var.equal = FALSE ,
       conf.level = 0.95, …)

金子:

  • x, y:两个数据样本。
  • 替代:检验的替代假设。
  • mu:平均值的真实值。
  • paired:是否进行配对t检验。
  • var.equal:是否假设样本之间的方差相等
  • conf.level:要使用的置信级别

以下示例展示了如何在实践中使用此功能。

示例 1:R 中的单样本 t 检验

单样本 t 检验用于测试总体平均值是否等于某个值。

例如,假设我们想知道某种乌龟的平均重量是否为 310 磅。我们出去收集一个简单的随机海龟样本,其权重如下:

重量: 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303

以下代码展示了如何在 R 中执行此 t 检验示例:

 #define vector of turtle weights
turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)

#perform one sample t-test
t. test (x=turtle_weights,mu=310)

	One Sample t-test

data: turtle_weights
t = -1.5848, df = 12, p-value = 0.139
alternative hypothesis: true mean is not equal to 310
95 percent confidence interval:
 303.4236 311.0379
sample estimates:
mean of x 
 307.2308

从结果我们可以看出:

  • t 检验统计量: -1.5848
  • 自由度: 12
  • p 值: 0.139
  • 真实平均值的 95% 置信区间: [303.4236, 311.0379]
  • 海龟平均体重: 307,230

由于检验的 p 值 (0.139) 不小于 0.05,因此我们无法拒绝原假设。

这意味着我们没有足够的证据表明这种海龟的平均体重不是 310 磅。

示例 2:R 中的两样本 t 检验

双样本 t 检验用于检验两个总体的均值是否相等。

例如,假设我们想知道两种不同种类的海龟的平均重量是否相等。为了测试这一点,我们从每个物种中收集了一个简单的随机样本,其权重如下:

样品1 :300、315、320、311、314、309、300、308、305、303、305、301、303

样品2 :335、329、322、321、324、319、304、308、305、311、307、300、305

以下代码显示了如何在 R 中执行这两个 t 检验示例:

 #define vector of turtle weights for each sample
sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303)
sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305)

#perform two sample t-tests
t. test (x = sample1, y = sample2)

	Welch Two Sample t-test

data: sample1 and sample2
t = -2.1009, df = 19.112, p-value = 0.04914
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -14.73862953 -0.03060124
sample estimates:
mean of x mean of y 
 307.2308 314.6154

从结果我们可以看出:

  • t 检验统计量: -2.1009
  • 自由度: 19,112
  • p 值: 0.04914
  • 真实平均差的 95% 置信区间: [-14.74,-0.03]
  • 样品1的平均重量: 307.2308
  • 样品2的平均重量: 314.6154

由于检验的 p 值 (0.04914) 小于 0.05,因此我们拒绝原假设。

这意味着我们有足够的证据表明两个物种之间的平均体重不相等。

示例 3:R 中的配对样本 t 检验

当一个样本中的每个观察值可以与另一个样本中的观察值相关联时,配对样本 t 检验用于比较两个样本的平均值。

例如,假设我们想知道某个训练计划是否能够增加篮球运动员的最大垂直弹跳(以英寸为单位)。

为了测试这一点,我们可以招募 12 名大学篮球运动员作为简单的随机样本,并测量他们每个人的最大垂直弹跳。然后我们可以让每个球员使用一个月的训练计划,然后在月底再次测量他们的最大垂直弹跳。

以下数据显示了每位球员使用训练计划前后的最大跳跃高度(以英寸为单位):

: 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21

之后: 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20

以下代码展示了如何在 R 中执行配对样本 t 检验:

 #define before and after max jump heights
before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21)
after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20)

#perform paired samples t-test
t. test (x = before, y = after, paired = TRUE )

	Paired t-test

data: before and after
t = -2.5289, df = 11, p-value = 0.02803
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -2.3379151 -0.1620849
sample estimates:
mean of the differences 
                  -1.25

从结果我们可以看出:

  • t 检验统计量: -2.5289
  • 自由度: 11
  • p 值: 0.02803
  • 真实平均差的 95% 置信区间: [-2.34,-0.16]
  • 前后平均差值: -1.25

由于检验的 p 值 (0.02803) 小于 0.05,因此我们拒绝原假设。

这意味着我们有足够的证据表明使用训练计划之前和之后的平均跳跃高度并不相等。

其他资源

使用以下在线计算器自动执行各种 t 检验:

t 检验计算器的示例
二样本 t 检验计算器
配对样本 t 检验计算器

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注