什么是直接选择？（定义&#038；示例）

经过本杰明·安德森博 7月 19, 2023 指导 0 条评论

在统计学中，逐步选择是一种过程，我们可以使用它从一组预测变量构建回归模型，方法是在模型中逐步输入和删除预测变量，直到不再有统计上有效的理由输入为止或删除更多。

逐步选择的目标是创建一个回归模型，其中包括与响应变量在统计上显着相关的所有预测变量。

最常用的逐步选择方法之一称为直接选择，其工作原理如下：

步骤 1：拟合没有预测变量的仅截距回归模型。计算模型的 AIC *值。

步骤 2：拟合所有可能的单预测回归模型。确定产生最低 AIC 的模型，并且与仅拦截模型相比，AIC 在统计上显着降低。

步骤 3：将所有回归模型拟合到两个可能的预测变量。确定产生最低 AIC 且与单预测变量模型相比 AIC 显着降低的模型。

重复此过程，直到用更多预测变量拟合回归模型不再导致 AIC 出现统计上显着的降低。

*您可以使用多种指标来计算回归模型的拟合优度，包括交叉验证预测误差、Cp、BIC、AIC 或调整后的^R2 。在下面的示例中，我们选择使用 AIC。

以下示例展示了如何在 R 中执行直接选择。

示例：R 中的直接选择

对于此示例，我们将使用 R 中内置的mtcars 数据集：

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

我们将使用mpg （英里/加仑）作为响应变量，并使用数据集中的其他 10 个变量作为潜在的预测变量来拟合多元线性回归模型。

以下代码演示了如何逐步执行选择：

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381

以下是如何解释结果：

首先，我们拟合仅截距模型。该模型的 AIC 为115.94345 。

然后我们将所有可能的模型拟合到预测器。与使用wt预测器的仅截距模型相比，产生最低 AIC 并且 AIC 也具有统计显着性降低的模型。该模型的 AIC 为73.21736 。

接下来，我们用两个预测变量拟合所有可能的模型。与添加了cyl预测器的单预测器模型相比，产生最低 AIC 且 AIC 具有统计显着性降低的模型。该模型的 AIC 为63.19800 。

接下来，我们将所有可能的模型拟合到三个预测变量。与添加了hp预测器的双预测器模型相比，产生最低 AIC 且 AIC 具有统计显着性降低的模型。该模型的 AIC 为62.66456 。

接下来，我们将所有可能的模型拟合到四个预测变量。事实证明，这些模型都没有显着降低 AIC，因此我们停止了该过程。

因此，最终模型是：

mpg = 38.75 – 3.17*重量 – 0.94*缸数 – 0.02*hyp

事实证明，尝试向模型中添加更多预测变量并不会导致 AIC 在统计上显着降低。

因此，我们得出的结论是，最好的模型是具有三个预测变量的模型：wt、cyl 和 hp。

使用AIC的注意事项

在前面的例子中，我们选择使用AIC作为衡量各种回归模型拟合度的指标。

AIC 代表赤池信息准则，计算公式如下：

AIC = 2K – 2 ln (L)

金子：

K：模型参数的数量。
ln (L) ：模型的对数似然。这告诉我们模型基于数据的可能性有多大。

但是，您可以选择使用其他指标来评估回归模型的拟合度，包括交叉验证预测误差、Cp、BIC、AIC 或调整后的^R2 。

幸运的是，大多数统计软件都允许您在直接选择时指定要使用哪个指标。

其他资源

以下教程提供有关回归模型的其他信息：

回归中的多重共线性和 VIF 指南
 什么被认为是良好的 AIC 值？

关于作者

本杰明·安德森博

大家好，我是本杰明，一位退休的统计学教授，后来成为 Statorials 的热心教师。凭借在统计领域的丰富经验和专业知识，我渴望分享我的知识，通过 Statorials 增强学生的能力。了解更多

示例：R 中的直接选择

使用AIC的注意事项

其他资源

关于作者

本杰明·安德森博

添加评论