偏最小二乘简介
机器学习中最常见的问题之一是多重共线性。当数据集中的两个或多个预测变量高度相关时,就会发生这种情况。
发生这种情况时,模型可能能够很好地拟合训练数据集,但它可能在从未见过的新数据集上表现不佳,因为它与训练数据集过度拟合。训练集。
解决多重共线性问题的一种方法是使用主成分回归,它计算原始p 个预测变量的M 个线性组合(称为“主成分”),然后使用最小二乘法来拟合使用主成分的线性回归模型组件作为预测变量。
主成分回归(PCR)的缺点是在计算主成分时没有考虑响应变量。
相反,它仅考虑主成分捕获的预测变量之间的方差大小。因此,在某些情况下,偏差最大的主成分可能无法很好地预测响应变量。
与 PCR 相关的技术称为偏最小二乘法。与 PCR 类似,偏最小二乘计算原始p个预测变量的M 个线性组合(称为“PLS 分量”),并使用最小二乘法拟合使用 PLS 分量作为预测变量的线性回归模型。
但与 PCR 不同的是,偏最小二乘法试图找到解释响应变量和预测变量变化的线性组合。
执行偏最小二乘法的步骤
在实践中,使用以下步骤来执行偏最小二乘。
1.对数据进行标准化,使所有预测变量和响应变量的均值为 0,标准差为 1。这可确保每个变量都以相同的尺度进行测量。
2.计算 Z 1 , … , Z M作为原始p预测变量的M个线性组合。
- Z m = ΣΦ jm _
- 要计算 Z 1 ,请将 Φ j1设置为等于 Y 在 X j上的简单线性回归的系数,它是捕获尽可能多方差的预测变量的线性组合。
- 要计算 Z 2 ,请对 Z 1上的每个变量进行回归并获取残差。然后使用该正交数据以与计算 Z 1完全相同的方式计算 Z 2 。
- 重复该过程M次以获得M个PLS分量。
3.使用最小二乘法拟合线性回归模型,并使用 PLS 分量 Z 1 , … , Z M作为预测变量。
4.最后,使用k折交叉验证来找到模型中保留的PLS组件的最佳数量。要保留的 PLS 分量的“最佳”数量通常是产生最低测试均方误差 (MSE) 的数量。
结论
在数据集中存在多重共线性的情况下,偏最小二乘回归往往比普通最小二乘回归表现得更好。但是,最好拟合几个不同的模型,以便您可以确定哪一个模型最能概括未见过的数据。
在实践中,我们将许多不同类型的模型(PLS、 PCR 、 Ridge 、 Lasso 、多元线性回归等)拟合到数据集,并使用 k 折交叉验证来识别产生最佳 MSE 测试的模型。新数据较低。 。