如何计算回归斜率的置信区间
简单线性回归用于量化预测变量和响应变量之间的关系。
此方法查找与一组数据最“匹配”的行,并采用以下形式:
ŷ = b 0 + b 1 x
金子:
- ŷ : 估计响应值
- b 0 :回归线的原点
- b 1 :回归线的斜率
- x :预测变量的值
我们经常对 b 1的值感兴趣,它告诉我们与预测变量增加一单位相关的响应变量的平均变化。
我们可以使用以下公式计算 β 1值(总体的斜率值)的置信区间:
β 1的置信区间:b 1 ± t 1-α/2, n-2 * se(b 1 )
金子:
- b 1 = 回归表中显示的斜率系数
- t 1-∝/2, n-2 = 具有 n-2 自由度的 1-∝ 置信水平的临界 t 值,其中n是数据集中的观测总数
- se(b 1 ) = 回归表中显示的 b 1标准误差
以下示例展示了如何在实践中计算回归斜率的置信区间。
示例:回归斜率的置信区间
假设我们想要拟合一个简单的线性回归模型,使用学习时间作为预测变量,考试成绩作为特定班级 15 名学生的响应变量:
我们可以在 Excel 中执行简单的线性回归并得到以下结果:
使用结果中的系数估计,我们可以编写拟合的简单线性回归模型,如下所示:
分数 = 65.334 + 1.982*(学习时间)
回归斜率值为1.982 。
这告诉我们,每多花一小时的学习时间,考试成绩就会平均提高1,982分。
我们可以使用以下公式计算斜率的 95% 置信区间:
- β 1的 95% CI:b 1 ± t 1-α/2,n-2 * se(b 1 )
- β 1的 95% CI:1.982 ± t 0.975, 15-2 * 0.248
- β 1的 95% CI:1.982 ± 2.1604 * 0.248
- β 1的 95% CI:[1.446, 2.518]
回归斜率的 95% 置信区间为[1.446, 2.518] 。
由于此置信区间不包含值 0,因此我们可以得出结论,学习时间和考试成绩之间存在统计上显着的关联。
注意:我们使用逆 t 分布计算器来查找临界 t 值,该值对应于 13 个自由度的 95% 置信水平。
其他资源
以下教程提供有关线性回归的其他信息: