如何解释线性回归中的p值(附示例)
在统计学中,线性回归模型用于量化一个或多个预测变量与响应变量之间的关系。
每次使用统计软件执行回归分析时,您都会收到一个总结模型结果的回归表。
回归表中最重要的两个值是回归系数及其相应的p 值。
p 值告诉您每个预测变量和响应变量之间是否存在统计显着关系。
以下示例展示了如何在实践中解释多元线性回归模型的 p 值。
示例:解释回归模型中的 P 值
假设我们想使用以下变量拟合回归模型:
预测变量
- 学习总时数(0 到 20 之间)
- 学生是否使用导师(是或否)
响应变量
- 考试成绩(0 到 100 之间)
我们想要检查预测变量和响应变量之间的关系,以查明学习和辅导时间是否确实对考试成绩有显着影响。
假设我们进行回归分析,得到以下结果:
学期 | 系数 | 标准误 | 统计数据 | P值 |
---|---|---|---|---|
截距 | 48.56 | 下午 2:32 | 3.39 | 0.002 |
学习时间 | 2.03 | 0.67 | 3.03 | 0.009 |
导师 | 8.34 | 5.68 | 1.47 | 0.138 |
以下是如何解释模型中每一项的结果:
截距 P 值的解释
回归表中的原始术语告诉我们当所有预测变量都为零时响应变量的预期平均值。
在此示例中,原点的回归系数等于48.56 。这意味着对于学习零小时的学生来说,平均预期考试成绩是 48.56。
p 值为0.002 ,这告诉我们原始项在统计上不同于零。
在实践中,我们通常不关心原始项的 p 值。即使p值不低于一定的显着性水平(例如0.05),我们仍然会在模型中保留原始项。
解释连续预测变量的 P 值
在此示例中,学习时间是一个连续预测变量,范围从 0 到 20 小时。
从回归结果中我们可以看出,研究时间的回归系数为2.03 。这意味着,假设预测变量Tutor保持不变,平均而言,每多学习一小时,期末考试分数就会增加 2.03 分。
例如,假设学生 A 学习了 10 个小时并聘请了导师。还要考虑学生 B,他学习了 11 个小时,并且还聘请了导师。根据我们的回归结果,学生 B 的考试成绩预计比学生 A 高2.03分。
相应的 p 值为0.009 ,在 0.05 的 alpha 水平下具有统计显着性。
这告诉我们,每多学习一小时,考试成绩的平均变化在统计上就与零显着不同。
换句话说:学习时间与考试成绩响应变量具有统计显着关系。
解释分类预测变量的 P 值
在此示例中, Tutor是一个分类预测变量,可以采用两个不同的值:
- 1 = 学生请导师来准备考试
- 0 = 学生没有请导师来准备考试
从回归结果中,我们可以看到 Tutor 的回归系数为8.34 。这意味着,假设预测变量学习时间保持不变,平均而言,使用导师的学生比不使用导师的学生在考试中得分高 8.34 分。
例如,假设学生 A 学习了 10 个小时并聘请了导师。还要考虑学生 B,他学习了 10 个小时并且没有请导师。根据我们的回归结果,学生 A 的考试成绩预计比学生 B 高 8.34 分。
相应的 p 值为0.138 ,在 0.05 的 alpha 水平下不具有统计显着性。
这告诉我们,每多学习一小时,考试成绩的平均变化与零在统计上并没有显着差异。
换句话说:导师预测变量与考试成绩响应变量没有统计显着关系。
这表明虽然使用导师的学生在考试中表现更好,但这种差异可能是偶然造成的。
其他资源
以下教程提供有关线性回归的其他信息: