什么时候应该使用多项式回归?
当预测变量和响应变量之间的关系是非线性时,多项式回归是一种可以用来拟合回归模型的技术。
多项式回归模型采用以下形式:
Y = β 0 + β 1 X + β 2 X 2 + … + β h
在实践中,可以通过三种简单的方法来确定是否应该使用多项式回归还是应该使用线性回归等更简单的模型。
1. 创建预测变量和响应变量的散点图
确定是否应使用多项式回归的最简单方法是创建预测变量和响应变量的简单散点图。
例如,假设我们想要使用预测变量“学习时间”来预测学生在期末考试中获得的成绩。
在拟合回归模型之前,我们可以首先根据考试结果创建学习时间的散点图。假设我们的散点图如下所示:
学习时间和考试成绩之间的关系看起来是线性的,因此对这个数据集拟合一个简单的线性回归模型是有意义的。
但是,我们假设散点图实际上如下所示:
这种关系似乎更加非线性,这告诉我们,拟合多项式回归模型可能是明智的。
2. 创建拟合值和残差图
确定是否应该使用多项式回归的另一种方法是将线性回归模型拟合到数据集,然后创建拟合值相对于模型残差的图。
如果残差存在明显的非线性趋势,则表明多项式回归可能可以更好地拟合数据。
例如,假设我们使用学习时间作为预测变量、考试成绩作为响应变量来拟合线性回归模型,然后创建以下拟合值与残差的关系图:
残差随机分散在零附近,没有清晰的模式,表明线性模型为数据提供了适当的拟合。
但是,假设我们的拟合值与残差图实际上如下所示:
从图中,我们可以看到残差有明显的非线性模式——残差呈“U”形。
这告诉我们线性模型不适合该特定数据,而拟合多项式回归模型可能是明智的选择。
3.计算模型调整后的R平方值
确定是否应该使用多项式回归的另一种方法是同时拟合线性回归模型和多项式回归模型,并计算两个模型的拟合 R 平方值。
调整后的 R 平方表示响应变量中可由模型中的预测变量解释的方差比例,并根据模型中预测变量的数量进行调整。
具有最高调整 R 平方的模型表示最能够使用预测变量来解释响应变量变化的模型。
其他资源
以下教程解释了如何使用不同的统计软件执行多项式回归: