如何计算回归分析中的残差
简单线性回归是一种统计方法,可用于了解两个变量 x 和 y 之间的关系。
变量x称为预测变量。另一个变量y称为响应变量。
例如,假设我们有以下数据集,其中包含七个人的体重和身高:
令体重为预测变量,身高为响应变量。
如果我们使用散点图绘制这两个变量,其中 x 轴为重量,y 轴为高度,则结果如下所示:
从散点图中我们可以清楚地看到,随着体重的增加,身高也趋于增加,但要真正量化体重和身高之间的这种关系,我们需要使用线性回归。
使用线性回归,我们可以找到最“适合”我们的数据的线:
这条最佳拟合线的公式如下:
ŷ = b 0 + b 1 x
其中 ŷ 是响应变量的预测值,b 0是截距,b 1是回归系数,x 是预测变量的值。
在此示例中,最佳拟合线是:
尺寸 = 32.783 + 0.2001*(重量)
如何计算残差
请注意,散点图中的数据点并不总是与最佳拟合线完全对应:
数据点和线之间的差异称为残差。对于每个数据点,我们可以通过其真实值与最佳拟合线的预测值之间的差来计算该点的残差。
示例 1:残差的计算
例如,回想一下我们数据集中七个人的体重和身高:
第一个人重140磅。高度为60英寸。
为了找出这个人的预期身高,我们可以将他们的体重代入最佳拟合方程中:
尺寸 = 32.783 + 0.2001*(重量)
因此,该个体的预测大小为:
高度 = 32.783 + 0.2001*(140)
高度 = 60.797 英寸
因此,该数据点的残差为 60 – 60.797 = -0.797 。
示例 2:残差的计算
我们可以使用与上面完全相同的过程来计算每个数据点的残差。例如,让我们计算数据集中第二个人的残差:
第二个人重155磅。高度为62英寸。
为了找出这个人的预期身高,我们可以将他们的体重代入最佳拟合方程中:
尺寸 = 32.783 + 0.2001*(重量)
因此,该个体的预测大小为:
高度 = 32.783 + 0.2001*(155)
高度 = 63.7985 英寸
因此该数据点的残差为 62 – 63.7985 = -1.7985 。
计算所有残差
使用与前两个示例相同的方法,我们可以计算每个数据点的残差:
请注意,有些残差为正,有些残差为负。如果我们将所有残差相加,它们的总数将为零。
这是因为线性回归找到了使残差总平方最小的线,这就是为什么该线完美地穿过数据,其中一些数据点位于线上方,而另一些数据点位于线下方。
查看残留物
请记住,残差只是数据的实际值与最佳拟合回归线预测的值之间的距离。以下是这些距离在点云上的视觉效果:
请注意,某些残差比其他残差大。此外,正如我们之前提到的,有些残差是正的,有些是负的。
创建剩余路径
计算残差的目的是查看回归线与数据的拟合程度。
较大的残差表明回归线与数据拟合得不好,即实际数据点与回归线不近似。
残差越小,表明回归线对数据的拟合效果越好,即实际数据点越接近回归线。
一次可视化所有残差的一种有用的绘图类型是残差图。残差图是一种显示回归模型的预测值与残差的图。
这种类型的图通常用于评估线性回归模型是否适合给定的数据集并检查残差的异方差性。
查看本教程,了解如何在 Excel 中为简单线性回归模型创建残差图。