什么是标准化残差?
残差是回归模型中观测值与预测值之间的差异。
计算方法如下:
残差 = 观测值 – 预测值
如果我们绘制观测值并叠加拟合回归线,则每个观测值的残差将是观测值与回归线之间的垂直距离:
我们经常用来识别回归模型中的异常值的一种残差称为标准化残差。
计算方法如下:
r i = e i / s(e i ) = e i / RSE√ 1-h ii
金子:
- e i :第 i个残基
- RSE:模型的残差标准误差
- h ii :第 i 个观测值的上升
在实践中,我们经常将绝对值大于 3 的任何标准化残差视为异常值。
这并不一定意味着我们将从模型中删除这些观察结果,但我们至少应该进一步研究它们,以验证它们不是数据输入错误或其他奇怪事件的结果。
注意:有时标准化残留物也称为“内部研究残留物”。
示例:如何计算标准化残差
假设我们有以下数据集,总共有 12 个观测值:
如果我们使用统计软件(如R 、 Excel 、 Python 、 Stata等)对该数据集拟合线性回归线,我们会发现最佳拟合线是:
y = 29.63 + 0.7553x
使用这条线,我们可以根据 X 的值计算每个 Y 值的预测值。例如,第一个观测值的预测值将是:
y = 29.63 + 0.7553*(8) = 35.67
然后我们可以计算该观测值的残差,如下所示:
残差 = 观测值 – 预测值 = 41 – 35.67 = 5.33
我们可以重复这个过程来找到每个观察的残差:
我们还可以利用统计软件发现模型的残差标准误差为4.44 。
而且,尽管这超出了本教程的范围,但我们可以使用软件来查找每个观察的杠杆统计量 (h ii ):
然后,我们可以使用以下公式来计算每个观测值的标准化残差:
r i = e i / RSE√ 1-h ii
例如,第一个观测值的标准化残差计算如下:
r i = 5.33 / 4.44√ 1-0.27 = 1.404
我们可以重复这个过程来找到每个观测值的标准化残差:
然后,我们可以创建预测值与标准化残差的快速散点图,以直观地查看标准化残差是否超过绝对值阈值 3:
从图中,我们可以看到标准化残差的绝对值均不超过 3。因此,所有观测值均不属于异常值。
应该指出的是,在某些情况下,研究人员将标准化残差绝对值超过 2 的观测值视为异常值。
这取决于您,具体取决于您所从事的领域以及您正在处理的具体问题,是否要使用绝对值 2 还是 3 作为异常值的阈值。
其他资源
以下教程提供了有关标准化残差的更多信息: