什么是残差/杠杆图? (定义&;示例)
残差与杠杆的关系图是一种诊断图表,使我们能够识别回归模型中有影响力的观察结果。
以下是这种类型的图在统计编程语言 R 中的显示方式:
数据集中的每个观测值都显示为图中的单个点。 x 轴显示每个点的杠杆率,y 轴显示每个点的标准化残差。
杠杆是指如果从数据集中删除特定观测值,回归模型的系数将发生变化的程度。
高杠杆的观测值对回归模型的系数有很大影响。如果我们删除这些观察结果,模型系数将发生显着变化。
标准化残差是指观测的预测值与观测的实际值之间的标准化差。
应该注意的是,观测值的标准化残差绝对值可能很高,但杠杆值可能很低。
如何解释残差与杠杆图
如果该图上的一个点落在库克距离(红色虚线)之外,则它被认为是有影响的观察。
让我们参考前面显示的残差与杠杆图:
在上面的示例中,我们可以看到观察#10 最接近库克距离限制,但它没有超出虚线。这意味着我们的回归模型中不存在影响点。
但是,假设我们有以下残差/杠杆图:
我们可以看到右上角的观察#1 在红色虚线之外。这表明它是一个影响点。
这意味着,如果我们从数据集中删除此观察结果并再次拟合回归模型,模型系数将发生显着变化。
如何处理有影响力的观察结果
如果您为模型创建残差与杠杆的关系图,并发现一个或多个观察值被确定为有影响力,则您可以执行以下操作:
1. 验证观察结果是否有误。
在采取任何行动之前,您应该首先验证有影响力的观察结果不是数据输入错误或其他奇怪事件的结果。
2. 尝试拟合另一个回归模型。
有影响力的观察结果可能表明您指定的模型与数据不太吻合。在这种情况下,您可以尝试多项式回归模型或非线性模型。
3.删除有影响力的评论。
最后,如果您指定的模型看起来与数据拟合得很好,那么您可以决定简单地删除有影响的观测值(一两个有影响的观测值除外)。
其他资源
以下教程提供了有关如何使用残差来评估回归模型拟合度的更多信息。