回归中的多重共线性和 vif 指南
当两个或多个预测变量彼此高度相关时,就会出现回归分析中的多重共线性,以致它们不会在回归模型中提供唯一或独立的信息。
如果变量之间的相关程度足够高,则在拟合和解释回归模型时可能会出现问题。
例如,假设您使用最大垂直跳跃响应变量和以下预测变量运行回归分析:
- 高度
- 鞋号
- 每天花在练习上的时间
在这种情况下,身高和鞋码可能高度相关,因为较高的人往往有更大的鞋码。这意味着多重共线性可能是该回归中的一个问题。
本教程解释了为什么多重共线性是一个问题、如何检测它以及如何解决它。
为什么多重共线性是一个问题
回归分析的主要目标之一是分离每个预测变量和响应变量之间的关系。
特别是,当我们进行回归分析时,假设模型中的所有其他预测变量保持不变,我们将每个回归系数解释为响应变量的平均变化。
这意味着我们假设我们能够更改给定预测变量的值而不更改其他预测变量的值。
然而,当两个或多个预测变量高度相关时,很难在不改变另一个变量的情况下改变一个变量。
这使得回归模型很难独立估计每个预测变量和响应变量之间的关系,因为预测变量往往会一致变化。
一般来说,多重共线性会带来两类问题:
- 模型的系数估计值(甚至系数的符号)可能会根据模型中包含的其他预测变量而大幅波动。
- 系数估计的精度降低,使得p值不可靠。这使得很难确定哪些预测变量实际上具有统计显着性。
如何检测多重共线性
检测多重共线性的最常见方法是使用方差膨胀因子 (VIF) ,它衡量回归模型中预测变量之间的相关性和相关强度。
使用方差膨胀因子 (VIF)
大多数统计软件都能够计算回归模型的 VIF。 VIF 值从 1 开始,没有上限。解释 VIF 的一般规则是:
- 值 1 表示给定预测变量与模型中的任何其他预测变量之间不存在相关性。
- 1 到 5 之间的值表示给定预测变量与模型中的其他预测变量之间存在中等相关性,但通常没有严重到需要特别注意的程度。
- 大于 5 的值表示给定预测变量与模型中的其他预测变量之间存在潜在的严重相关性。在这种情况下,回归结果中的系数估计和 p 值可能不可靠。
例如,假设我们使用预测变量身高、鞋码和每天训练的时间进行回归分析来预测篮球运动员的最大垂直弹跳,并得到以下结果:
在最后一列中,我们可以看到身高和鞋码的 VIF 值都大于 5。这表明它们可能存在多重共线性,并且它们的系数估计和 p 值可能不可靠。
如果我们查看鞋码的系数估计值,模型会告诉我们,假设高度和练习时间保持不变,鞋码每增加一个单位,最大垂直弹跳的平均增量为 -0.67498 英寸。
这似乎没有意义,因为我们预计穿较大鞋子的球员会更高,从而具有更高的最大垂直弹跳。
这是多重共线性的一个典型例子,它使得系数估计看起来有点牵强且不直观。
如何解决多重共线性
如果检测到多重共线性,下一步就是决定是否需要以某种方式解决它。根据回归分析的目标,您可能不需要解决多重共线性。
要知道:
1.如果只有中等程度的多重共线性,您可能不需要以任何方式解决它。
2.多重共线性仅影响彼此相关的预测变量。如果您对模型中不受多重共线性影响的预测变量感兴趣,那么多重共线性不是问题。
3.多重共线性会影响系数估计值和 p 值,但不会影响预测或拟合优度统计数据。这意味着,如果回归的主要目标是进行预测,并且您对了解预测变量和响应变量之间的确切关系不感兴趣,则不需要解决多重共线性。
如果您确定需要纠正多重共线性,一些常见的解决方案包括:
1. 删除一个或多个高度相关的变量。在大多数情况下,这是最快的解决方案,并且通常是可接受的解决方案,因为您删除的变量无论如何都是多余的,并且向模型添加的唯一或独立信息很少。
2.以某种方式线性组合预测变量,例如以某种方式相加或相减。通过这样做,您可以创建一个包含两个变量信息的新变量,并且不再存在多重共线性问题。
3. 执行旨在解释高度相关变量的分析,例如主成分分析或 偏最小二乘 (PLS) 回归。这些技术专门设计用于处理高度相关的预测变量。