如何解释调整后的 r 平方(附示例)
当我们拟合线性回归模型时,我们经常计算模型的R平方值。
R 平方值是响应变量中可由模型中的预测变量解释的方差的比例。
R 平方的值可以在 0 到 1 之间变化,其中:
- 值0表示响应变量根本无法由预测变量解释。
- 值为1表示响应变量可以由预测变量完美解释。
尽管此指标通常用于评估回归模型对数据集的拟合程度,但它有一个严重的缺点:
R平方的缺点:
当将新的预测变量添加到回归模型时,R 平方将始终增加。
即使新的预测变量与响应变量几乎没有关系,模型的 R 平方值也会增加,即使只是少量增加。
因此,即使模型不能很好地拟合数据,具有大量预测变量的回归模型也可能具有较高的 R 平方值。
幸运的是,有一种 R 平方的替代方法,称为调整 R 平方。
调整后的 R 平方是 R 平方的修改版本,可根据回归模型中的预测变量数量进行调整。
计算方法如下:
调整后的 R 2 = 1 – [(1-R 2 )*(n-1)/(nk-1)]
金子:
- R 2 :模型的R 2
- n :观察次数
- k :预测变量的数量
由于当您向模型中添加预测变量时,R 平方始终会增加,因此调整后的 R 平方可以告诉您模型的有用性(根据模型中预测变量的数量进行调整) 。
调整R平方的优点:
调整后的 R 平方告诉我们一组预测变量能够解释响应变量的变化(根据模型中预测变量的数量进行调整) 。
由于其计算方式,调整后的 R 平方可用于比较具有不同数量的预测变量的回归模型的拟合度。
为了更好地理解调整后的 R 平方,请参阅以下示例。
示例:了解回归模型中的调整 R 平方
假设一位教授收集了班级学生的数据,并拟合了以下回归模型,以了解学习时间和班级当前成绩如何影响学生期末考试的成绩。
考试成绩 = β 0 + β 1 (学习时间)+ β 2 (当前成绩)
我们假设该回归模型具有以下指标:
- R 平方: 0.955
- 调整后的 R 平方: 0.946
现在假设老师决定收集每个学生的另一个变量的数据:鞋码。
尽管这个变量应该与期末考试成绩没有关系,但他决定采用以下回归模型:
考试成绩 = β 0 + β 1 (学习时间)+ β 2 (当年)+ β 3 (鞋码)
我们假设该回归模型具有以下指标:
- R 平方: 0.965
- 调整后的 R 平方: 0.902
如果我们只查看这两个回归模型的R 平方值,我们会得出结论,第二个模型更适合使用,因为它具有更高的 R 平方值!
然而,如果我们查看调整后的 R 平方值,我们会得出不同的结论:最好使用第一个模型,因为它具有更高的调整 R 平方值。
第二个模型仅具有较高的 R 平方值,因为它比第一个模型具有更多的预测变量。
然而,我们添加的预测变量(鞋码)对期末考试成绩的预测效果很差,因此调整后的 R 平方值会惩罚添加此预测变量的模型。
此示例说明了为什么在比较具有不同数量的预测变量的回归模型的拟合度时,调整后的 R 平方是一个更好的度量标准。
其他资源
以下教程解释了如何使用不同的统计软件计算调整后的R平方值:
如何计算 R 中调整后的 R 平方
如何在 Excel 中计算调整后的 R 平方
如何在 Python 中计算调整后的 R 平方