机器学习中的最佳子集选择（解释和示例）

经过本杰明·安德森博 7月 27, 2023 指导 0 条评论

在机器学习中，我们经常希望使用一组预测变量和响应变量来构建模型。我们的目标是建立一个模型，可以有效地使用预测变量来预测响应变量的值。

给定一组p个总预测变量，我们可以构建许多模型。我们可以用来选择最佳模型的一种方法称为最佳子集选择，其工作原理如下：

1.设 M ₀为空模型，不包含预测变量。

2.对于 k = 1, 2, … p：

3.使用交叉验证预测误差、Cp、BIC、AIC 或调整后的 R ²从 M ₀ … M _p中选择单个最佳模型。

请注意，对于一组p个预测变量，有 2 ^p个可能的模型。

假设我们有一个包含 p = 3 个预测变量和一个响应变量 y 的数据集。为了使用该数据集执行最佳子集选择，我们将拟合以下 2 ^p = 2 ³ = 8 模型：

然后我们会从每组具有k个预测变量的模型中选择^R2最高的模型。例如，我们最终可能会选择：

然后，我们将交叉验证并选择最佳模型作为导致最低预测误差、Cp、BIC、AIC 或调整后的^{R2 的}模型。

例如，我们最终可能会选择以下模型作为“最佳”模型，因为它产生的交叉验证预测误差最低：

选择最佳子集的最后一步是选择具有最低预测误差、最低 Cp、最低 BIC、最低 AIC 或最低调整^R2的模型。更高。

以下是用于计算每个指标的公式：

Cp： (RSS+2dσ̂) / n

AIC： (RSS+2dσ̂ ² ) / (nσ̂ ² )

BIC: (RSS+log(n)dσ̂ ² ) / n

R ²调整： 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

金子：

选择最佳子集可带来以下好处：

然而，这种方法有以下缺点：

尽管选择最佳子集很容易实现和理解，但如果您正在使用包含大量预测变量的数据集，则可能不切实际，并且可能导致过度拟合。

此方法的替代方法称为逐步选择，它的计算效率更高。

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多