完整指南:r 中的假设检验
假设检验是一种正式的统计检验,我们用它来拒绝或未能拒绝统计假设。
本教程介绍如何在 R 中执行以下假设检验:
- 样本 t 检验
- 两样本 T 检验
- 配对样本 t 检验
我们可以使用 R 中的t.test()函数来执行每种类型的测试:
#one sample t-test t. test (x, y = NULL, alternative = c(" two.sided ", " less ", " greater "), mu = 0, paired = FALSE, var.equal = FALSE , conf.level = 0.95, …)
金子:
- x, y:两个数据样本。
- 替代:检验的替代假设。
- mu:平均值的真实值。
- paired:是否进行配对t检验。
- var.equal:是否假设样本之间的方差相等。
- conf.level:要使用的置信级别。
以下示例展示了如何在实践中使用此功能。
示例 1:R 中的单样本 t 检验
单样本 t 检验用于测试总体平均值是否等于某个值。
例如,假设我们想知道某种乌龟的平均重量是否为 310 磅。我们出去收集一个简单的随机海龟样本,其权重如下:
重量: 300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303
以下代码展示了如何在 R 中执行此 t 检验示例:
#define vector of turtle weights turtle_weights <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) #perform one sample t-test t. test (x=turtle_weights,mu=310) One Sample t-test data: turtle_weights t = -1.5848, df = 12, p-value = 0.139 alternative hypothesis: true mean is not equal to 310 95 percent confidence interval: 303.4236 311.0379 sample estimates: mean of x 307.2308
从结果我们可以看出:
- t 检验统计量: -1.5848
- 自由度: 12
- p 值: 0.139
- 真实平均值的 95% 置信区间: [303.4236, 311.0379]
- 海龟平均体重: 307,230
由于检验的 p 值 (0.139) 不小于 0.05,因此我们无法拒绝原假设。
这意味着我们没有足够的证据表明这种海龟的平均体重不是 310 磅。
示例 2:R 中的两样本 t 检验
双样本 t 检验用于检验两个总体的均值是否相等。
例如,假设我们想知道两种不同种类的海龟的平均重量是否相等。为了测试这一点,我们从每个物种中收集了一个简单的随机样本,其权重如下:
样品1 :300、315、320、311、314、309、300、308、305、303、305、301、303
样品2 :335、329、322、321、324、319、304、308、305、311、307、300、305
以下代码显示了如何在 R 中执行这两个 t 检验示例:
#define vector of turtle weights for each sample sample1 <- c(300, 315, 320, 311, 314, 309, 300, 308, 305, 303, 305, 301, 303) sample2 <- c(335, 329, 322, 321, 324, 319, 304, 308, 305, 311, 307, 300, 305) #perform two sample t-tests t. test (x = sample1, y = sample2) Welch Two Sample t-test data: sample1 and sample2 t = -2.1009, df = 19.112, p-value = 0.04914 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -14.73862953 -0.03060124 sample estimates: mean of x mean of y 307.2308 314.6154
从结果我们可以看出:
- t 检验统计量: -2.1009
- 自由度: 19,112
- p 值: 0.04914
- 真实平均差的 95% 置信区间: [-14.74,-0.03]
- 样品1的平均重量: 307.2308
- 样品2的平均重量: 314.6154
由于检验的 p 值 (0.04914) 小于 0.05,因此我们拒绝原假设。
这意味着我们有足够的证据表明两个物种之间的平均体重不相等。
示例 3:R 中的配对样本 t 检验
当一个样本中的每个观察值可以与另一个样本中的观察值相关联时,配对样本 t 检验用于比较两个样本的平均值。
例如,假设我们想知道某个训练计划是否能够增加篮球运动员的最大垂直弹跳(以英寸为单位)。
为了测试这一点,我们可以招募 12 名大学篮球运动员作为简单的随机样本,并测量他们每个人的最大垂直弹跳。然后我们可以让每个球员使用一个月的训练计划,然后在月底再次测量他们的最大垂直弹跳。
以下数据显示了每位球员使用训练计划前后的最大跳跃高度(以英寸为单位):
前: 22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21
之后: 23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20
以下代码展示了如何在 R 中执行配对样本 t 检验:
#define before and after max jump heights before <- c(22, 24, 20, 19, 19, 20, 22, 25, 24, 23, 22, 21) after <- c(23, 25, 20, 24, 18, 22, 23, 28, 24, 25, 24, 20) #perform paired samples t-test t. test (x = before, y = after, paired = TRUE ) Paired t-test data: before and after t = -2.5289, df = 11, p-value = 0.02803 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -2.3379151 -0.1620849 sample estimates: mean of the differences -1.25
从结果我们可以看出:
- t 检验统计量: -2.5289
- 自由度: 11
- p 值: 0.02803
- 真实平均差的 95% 置信区间: [-2.34,-0.16]
- 前后平均差值: -1.25
由于检验的 p 值 (0.02803) 小于 0.05,因此我们拒绝原假设。
这意味着我们有足够的证据表明使用训练计划之前和之后的平均跳跃高度并不相等。
其他资源
使用以下在线计算器自动执行各种 t 检验: