多重共线性

经过本杰明·安德森博 2 8 月, 2023 统计数据 0 条评论

本文解释了统计学中的多重共线性。因此，您将了解多重共线性何时存在、多重共线性的后果是什么、如何识别多重共线性以及最后如何解决这个问题。

什么是多重共线性？

多重共线性是回归模型中两个或多个解释变量具有高度相关性时发生的情况。换句话说，在回归模型中，当模型中两个或多个变量之间的关系非常强时，就会存在多重共线性。

例如，如果我们运行一个将一个国家的预期寿命与其人口规模和GDP联系起来的回归模型，那么人口规模和GDP之间肯定会出现多重共线性，因为这两个变量通常是强相关的。相关的。因此，很难分析每个变量对预期寿命的影响。

从逻辑上讲，模型中的变量总是相互关联的；只有在田园诗般的过程中，变量之间才会出现非相关性。然而，我们感兴趣的是变量之间的相关性较低，否则我们无法知道每个解释变量对响应变量的影响。

多重共线性的主要原因通常是样本量小、解释变量之间存在因果关系或观测值的低变异性。

多重共线性有两种类型：

识别多重共线性的一种方法是计算相关矩阵，因为它包含了所有变量之间的相关系数，因此可以观察一对变量是否高度相关。

➤请参阅：相关矩阵

但是，使用相关矩阵，您只能知道两个变量是否相互相关，而无法知道一组变量之间是否存在组合。为此，通常需要计算方差膨胀因子。

方差膨胀因子（VIF）也称为方差膨胀因子（VIF） ，是为每个解释变量计算的统计系数，表示其他变量与给定解释变量的相关性。具体来说，其公式如下：

$FIV_i=\cfrac{1}{1-R_i^2}$

金子

$FIV_i$

是变量 iy 方差的膨胀因子

$R_i^2$

是以变量 i 为因变量、其余变量为自变量的回归模型的决定系数。

因此，根据获得的方差膨胀因子的值，可以知道是否存在多重共线性：

在实践中，方差膨胀因子通常使用计算机软件计算，因为为每个变量创建回归模型然后手动查找系数值需要很长时间。

以下措施可用于解决回归模型中的多重共线性问题：

如果样本量较小，增加数据数量可以减少近似多重共线性。
删除所有产生多重共线性的变量。如果变量高度相关，模型中将丢失很少的信息，并且多重共线性将会减少。
通过应用偏最小二乘 (PLS) 准则创建回归模型。
有时，您可以保留回归模型不变，但存在多重共线性。例如，如果我们只想创建一个模型来进行预测并且不需要解释它，则可以使用模型方程通过新的观察来预测因变量的值，假设多重共线性模式会重复自身在新的观察中。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多