什么是标准化残差?


残差回归模型中观测值与预测值之间的差异。

计算方法如下:

残差 = 观测值 – 预测值

如果我们绘制观测值并叠加拟合回归线,则每个观测值的残差将是观测值与回归线之间的垂直距离:

统计中的残差示例

我们经常用来识别回归模型中的异常值的一种残差称为标准化残差

计算方法如下:

r i = e i / s(e i ) = e i / RSE√ 1-h ii

金子:

  • e i :第 i残基
  • RSE:模型的残差标准误差
  • h ii第 i 个观测值的上升

在实践中,我们经常将绝对值大于 3 的任何标准化残差视为异常值。

这并不一定意味着我们将从模型中删除这些观察结果,但我们至少应该进一步研究它们,以验证它们不是数据输入错误或其他奇怪事件的结果。

注意:有时标准化残留物也称为“内部研究残留物”。

示例:如何计算标准化残差

假设我们有以下数据集,总共有 12 个观测值:

如果我们使用统计软件(如RExcelPythonStata等)对该数据集拟合线性回归线,我们会发现最佳拟合线是:

y = 29.63 + 0.7553x

使用这条线,我们可以根据 X 的值计算每个 Y 值的预测值。例如,第一个观测值的预测值将是:

y = 29.63 + 0.7553*(8) = 35.67

然后我们可以计算该观测值的残差,如下所示:

残差 = 观测值 – 预测值 = 41 – 35.67 = 5.33

我们可以重复这个过程来找到每个观察的残差:

如何计算残差

我们还可以利用统计软件发现模型的残差标准误差为4.44

而且,尽管这超出了本教程的范围,但我们可以使用软件来查找每个观察的杠杆统计量 (h ii ):

然后,我们可以使用以下公式来计算每个观测值的标准化残差:

r i = e i / RSE√ 1-h ii

例如,第一个观测值的标准化残差计算如下:

r i = 5.33 / 4.44√ 1-0.27 = 1.404

我们可以重复这个过程来找到每个观测值的标准化残差:

计算标准化残差的示例

然后,我们可以创建预测值与标准化残差的快速散点图,以直观地查看标准化残差是否超过绝对值阈值 3:

预测值与标准化残差图

从图中,我们可以看到标准化残差的绝对值均不超过 3。因此,所有观测值均不属于异常值。

应该指出的是,在某些情况下,研究人员将标准化残差绝对值超过 2 的观测值视为异常值。

这取决于您,具体取决于您所从事的领域以及您正在处理的具体问题,是否要使用绝对值 2 还是 3 作为异常值的阈值。

其他资源

以下教程提供了有关标准化残差的更多信息:

统计中的残差是什么?
如何在Excel中计算标准化残差
如何计算 R 中的标准化残差
如何在 Python 中计算标准化残差

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注