多重共线性
本文解释了统计学中的多重共线性。因此,您将了解多重共线性何时存在、多重共线性的后果是什么、如何识别多重共线性以及最后如何解决这个问题。
什么是多重共线性?
多重共线性是回归模型中两个或多个解释变量具有高度相关性时发生的情况。换句话说,在回归模型中,当模型中两个或多个变量之间的关系非常强时,就会存在多重共线性。
例如,如果我们运行一个将一个国家的预期寿命与其人口规模和GDP联系起来的回归模型,那么人口规模和GDP之间肯定会出现多重共线性,因为这两个变量通常是强相关的。相关的。因此,很难分析每个变量对预期寿命的影响。
从逻辑上讲,模型中的变量总是相互关联的;只有在田园诗般的过程中,变量之间才会出现非相关性。然而,我们感兴趣的是变量之间的相关性较低,否则我们无法知道每个解释变量对响应变量的影响。
多重共线性的主要原因通常是样本量小、解释变量之间存在因果关系或观测值的低变异性。
多重共线性的类型
多重共线性有两种类型:
- 精确多重共线性:当一个或多个变量是其他变量的线性组合时。在这种情况下,多重共线性变量之间的相关系数等于 1。
- 近似多重共线性:变量之间不存在线性组合,但两个或多个变量之间的决定系数非常接近1,因此它们高度相关。
多重共线性的后果
- 添加相关变量时,模型回归系数的值会发生变化,从而难以解释生成的回归模型。
- 参数估计的精度降低,回归系数的标准误差增大。
- 一些引起多重共线性的变量肯定是多余的,因此没有必要将它们包含在模型中。
- 您很可能会陷入过度拟合的情况,即模型过度拟合,因此无法用于进行预测。
- 回归系数的p 值变得不太可靠。因此,确定回归模型中包含哪些变量以及删除哪些变量变得更加困难。
如何检测多重共线性
识别多重共线性的一种方法是计算相关矩阵,因为它包含了所有变量之间的相关系数,因此可以观察一对变量是否高度相关。
➤请参阅:相关矩阵
但是,使用相关矩阵,您只能知道两个变量是否相互相关,而无法知道一组变量之间是否存在组合。为此,通常需要计算方差膨胀因子。
方差膨胀因子(VIF)也称为方差膨胀因子(VIF) ,是为每个解释变量计算的统计系数,表示其他变量与给定解释变量的相关性。具体来说,其公式如下:
金子
是变量 iy 方差的膨胀因子
是以变量 i 为因变量、其余变量为自变量的回归模型的决定系数。
因此,根据获得的方差膨胀因子的值,可以知道是否存在多重共线性:
- VIF = 1 :当方差膨胀因子等于1时,表示因变量与其他变量之间不存在相关性。
- 1 < IVF < 5 :变量之间存在相关性,但相关性中等。原则上,无需采取任何措施来纠正多重共线性。
- VIF > 5 :如果方差膨胀因子大于1,则意味着模型的多重共线性较高,因此应尝试解决它。
在实践中,方差膨胀因子通常使用计算机软件计算,因为为每个变量创建回归模型然后手动查找系数值需要很长时间。
正确的多重共线性
以下措施可用于解决回归模型中的多重共线性问题:
- 如果样本量较小,增加数据数量可以减少近似多重共线性。
- 删除所有产生多重共线性的变量。如果变量高度相关,模型中将丢失很少的信息,并且多重共线性将会减少。
- 通过应用偏最小二乘 (PLS) 准则创建回归模型。
- 有时,您可以保留回归模型不变,但存在多重共线性。例如,如果我们只想创建一个模型来进行预测并且不需要解释它,则可以使用模型方程通过新的观察来预测因变量的值,假设多重共线性模式会重复自身在新的观察中。