了解线性回归的原假设
线性回归是一种我们可以用来理解一个或多个预测变量与响应变量之间关系的技术。
如果我们只有一个预测变量和一个响应变量,我们可以使用简单线性回归,它使用以下公式来估计变量之间的关系:
ŷ = β 0 + β 1 x
金子:
- ŷ:估计响应值。
- β 0 :x 为零时 y 的平均值。
- β 1 :与 x 增加 1 个单位相关的 y 平均变化。
- x:预测变量的值。
简单线性回归使用以下原假设和备择假设:
- H 0 : β 1 = 0
- H A : β 1 ≠ 0
原假设指出系数 β 1等于零。换句话说,预测变量 x 和响应变量 y 之间不存在统计上显着的关系。
另类假设指出 β 1不等于零。换句话说,x 和 y 之间存在统计上显着的关系。
如果我们有多个预测变量和一个响应变量,我们可以使用多元线性回归,它使用以下公式来估计变量之间的关系:
ŷ = β 0 + β 1 x 1 + β 2 x 2 + … + β k x k
金子:
- ŷ:估计响应值。
- β 0 :所有预测变量均为零时 y 的平均值。
- β i :与 x i增加一个单位相关的 y 的平均变化。
- x i :预测变量 x i的值。
多元线性回归使用以下原假设和备择假设:
- H 0 : β 1 = β 2 = … = β k = 0
- H A : β 1 = β 2 = … = β k ≠ 0
原假设指出模型中的所有系数都为零。换句话说,没有一个预测变量与响应变量 y 具有统计显着关系。
另一种假设指出并非所有系数同时为零。
以下示例说明如何决定是否拒绝简单线性回归和多元线性回归模型中的原假设。
示例 1:简单线性回归
假设一位教授想要使用学习小时数来预测他班上的学生将达到的考试成绩。它收集了 20 名学生的数据并拟合了一个简单的线性回归模型。
下面的截图显示了回归模型的结果:
拟合的简单线性回归模型为:
考试成绩 = 67.1617 + 5.2503*(学习时间)
为了确定学习时间和考试成绩之间是否存在统计显着关系,我们需要分析模型的整体 F 值和相应的 p 值:
- 总体 F 值: 47.9952
- P 值: 0.000
由于该 p 值小于 0.05,因此我们可以拒绝原假设。换句话说,学习时间和考试成绩之间存在统计上显着的关系。
示例 2:多元线性回归
假设一位教授想要使用学习的小时数和准备考试的次数来预测学生在他的班级中获得的成绩。它收集 20 名学生的数据并拟合多元线性回归模型。
下面的截图显示了回归模型的结果:
拟合的多元线性回归模型为:
考试成绩 = 67.67 + 5.56*(学习时数)– 0.60*(参加的预科考试)
为了确定两个预测变量和响应变量之间是否存在统计显着关系,我们需要分析模型的整体 F 值和相应的 p 值:
- 总体 F 值: 23.46
- P 值: 0.00
由于该 p 值小于 0.05,因此我们可以拒绝原假设。换句话说,学习时间和参加的准备考试与考试成绩具有统计上的显着关系。
注意:虽然参加的预备考试的 p 值 (p = 0.52) 并不显着,但预备考试与学习时间的结合与考试成绩有显着关系。
其他资源
了解回归中总体显着性的 F 检验
如何阅读和解释回归表
如何报告回归结果
如何在 Excel 中执行简单线性回归
如何在 Excel 中执行多元线性回归