如何解释回归系数
在统计学中, 回归分析是一种可用于分析预测变量和响应变量之间关系的技术。
当您使用软件(如R 、 Stata 、 SPSS等)执行回归分析时,您将收到总结回归结果的回归表作为输出。
可以说,回归表结果中最重要的数字是回归系数。然而,尽管这些数字很重要,但许多人很难正确解释这些数字。
本教程提供了回归分析的示例,并详细解释了如何解释回归所得的回归系数。
相关: 如何阅读和解释整个回归表
回归分析示例
假设我们要使用以下变量进行回归分析:
预测变量
- 学习总时数(连续变量 – 0 到 20 之间)
- 学生是否使用导师(分类变量 – “是”或“否” )
响应变量
- 考试成绩(连续变量– 1 到 100 之间)
我们想要检查预测变量和响应变量之间的关系,看看学习时间以及学生是否使用导师实际上是否会对他们的考试成绩产生重大影响。
假设我们进行回归分析,得到以下结果:
学期 | 系数 | 标准误 | 统计数据 | P值 |
---|---|---|---|---|
截距 | 48.56 | 下午 2:32 | 3.39 | 0.002 |
学习时间 | 2.03 | 0.67 | 3.03 | 0.009 |
导师 | 8.34 | 5.68 | 1.47 | 0.138 |
让我们看看如何解释每个回归系数。
拦截的解释
回归表中的原始术语告诉我们当所有预测变量都为零时响应变量的预期平均值。
在此示例中,原点的回归系数等于48.56 。这意味着,对于学习零小时(学习时间 = 0)并且没有使用导师(导师 = 0)的学生,平均预期考试成绩为 48.56。
值得注意的是,只有当模型中的所有预测变量实际上都可以为零时,截距的回归系数才显着。在此示例中,学生当然有可能学习零小时(学习时间= 0)并且也没有使用导师(导师= 0)。因此,截距回归系数的解释在本例中是有意义的。
然而,在某些情况下,截距的回归系数并不显着。例如,假设我们使用平方英尺作为预测变量、房屋价值作为响应变量进行回归分析。
在输出回归表中,原始项的回归系数不会有有意义的解释,因为房屋的平方英尺永远不可能等于零。在这种情况下,原始项的回归系数只是将回归线锚定在正确的位置。
解释连续预测变量的系数
对于连续预测变量,回归系数表示预测变量每发生一个单位变化时响应变量的预测值之间的差异(假设所有其他预测变量保持不变)。
在此示例中,学习时间是一个连续预测变量,范围从 0 到 20 小时。在某些情况下,学生只学习了零小时,而在其他情况下,学生学习了长达 20 小时。
从回归结果中我们可以看出,研究时间的回归系数为2.03 。这意味着,假设预测变量Tutor保持不变,平均而言,每多学习一小时,期末考试分数就会增加 2.03 分。
例如,假设学生 A 学习了 10 个小时并聘请了导师。还要考虑学生 B,他学习了 11 个小时,并且还聘请了导师。根据我们的回归结果,学生 B 的考试成绩预计比学生 A 高 2.03 分。
回归表的 p 值告诉我们该回归系数实际上是否具有统计显着性。我们可以看到,研究时间的 p 值为0.009 ,在 0.05 的 alpha 水平下具有统计显着性。
注意:执行回归分析之前必须选择 alpha 水平 – alpha 水平的常见选择为 0.01、0.05 和 0.10。
相关文章: P值及其统计显着性的解释
解释分类预测变量的系数
对于类别预测变量,回归系数表示预测变量 = 0 的类别与预测变量 = 1 的类别之间响应变量的预测值的差异。
在此示例中, Tutor是一个分类预测变量,可以采用两个不同的值:
- 1 = 学生请导师来准备考试
- 0 = 学生没有请导师来准备考试
从回归结果中,我们可以看到Tutor的回归系数为8.34 。这意味着,假设预测变量学习时间保持不变,平均而言,使用导师的学生比不使用导师的学生在考试中得分高 8.34 分。
例如,假设学生 A 学习了 10 个小时并聘请了导师。还要考虑学生 B,他学习了 10 个小时并且没有请导师。根据我们的回归结果,学生 A 的考试成绩预计比学生 B 高 8.34 分。
回归表的 p 值告诉我们该回归系数实际上是否具有统计显着性。我们可以看到Tutor的 p 值为0.138 ,这在 0.05 的 alpha 水平下不具有统计显着性。这表明虽然使用导师的学生在考试中表现更好,但这种差异可能是由于运气所致。
立即解释所有系数
我们可以使用回归表中的所有系数来创建以下估计回归方程:
预期考试成绩 = 48.56 + 2.03*(学习时间)+ 8.34*(导师)
注意:请记住,预测变量“Tutor”在 0.05 alpha 水平下不具有统计显着性,因此您可以选择从模型中删除此预测变量,而不是在回归方程最终估计中使用它。
使用这个估计的回归方程,我们可以根据学生的学习总时数以及他们是否使用导师来预测学生的期末考试成绩。
例如,学习了 10 小时并使用导师的学生应获得的考试成绩为:
预期考试成绩 = 48.56 + 2.03*(10) + 8.34*(1) = 77.2
解释回归系数时考虑相关性
重要的是要记住,预测变量在回归模型中可以相互影响。例如,大多数预测变量至少在某种程度上彼此相关(例如,学习更多的学生也更有可能使用导师)。
这意味着当模型中添加或删除不同的预测变量时,回归系数将会发生变化。
查看预测变量之间的相关性是否严重到足以严重影响回归模型的一个好方法是检查预测变量之间的 VIF 。
这将告诉您预测变量之间的相关性是否是决定解释回归系数之前需要解决的问题。
如果您使用单个预测变量运行简单的线性回归模型,相关预测变量将不会成为问题。