什么是后向选择? (定义&;示例)
在统计学中,逐步选择是一种过程,我们可以使用它从一组预测变量构建回归模型,方法是在模型中逐步输入和删除预测变量,直到不再有统计上有效的理由输入为止或删除更多。
逐步选择的目标是创建一个回归模型,其中包括与响应变量在统计上显着相关的所有预测变量。
最常用的逐步选择方法之一称为向后选择,其工作原理如下:
步骤 1:使用所有p 个预测变量拟合回归模型。计算模型的 AIC *值。
步骤 2:删除导致 AIC 最大程度降低的预测变量,并且与具有所有p个预测变量的模型相比,还会导致 AIC 在统计上显着降低。
步骤 3:删除导致 AIC 最大程度降低的预测变量,并且与具有p-1预测变量的模型相比,还会导致 AIC 在统计上显着降低。
重复该过程,直到删除任何预测变量不再导致 AIC 在统计上显着降低。
*您可以使用多种指标来计算回归模型的拟合优度,包括交叉验证预测误差、Cp、BIC、AIC 或调整后的R2 。在下面的示例中,我们选择使用 AIC。
以下示例展示了如何在 R 中执行向后选择。
示例:R 中的向后选择
对于此示例,我们将使用 R 中内置的mtcars 数据集:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
我们将使用mpg (英里/加仑)作为响应变量,并使用数据集中的其他 10 个变量作为潜在的预测变量来拟合多元线性回归模型。
下面的代码展示了如何后退:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
以下是如何解释结果:
首先,我们使用 10 个预测变量拟合模型并计算模型的 AIC。
接下来,我们删除了导致 AIC 最大程度降低的变量 ( cyl ),并且与 10 个预测变量模型相比,AIC 也获得了统计上显着的降低。
接下来,我们删除了导致 AIC 最大程度降低的变量 ( vs ),并且与 9 预测变量模型相比,AIC 也获得了统计上显着的降低。
接下来,我们删除了导致 AIC 最大程度降低的变量 ( carb ),并且与 8 预测变量模型相比,AIC 也获得了统计上显着的降低。
我们重复这个过程,直到删除任何变量不再导致 AIC 在统计上显着降低。
最终模型如下:
英里/加仑 = 9.62 – 3.92*体重 + 1.23*qsec + 2.94*上午
使用AIC的注意事项
在前面的例子中,我们选择使用AIC作为衡量各种回归模型拟合度的指标。
AIC 代表赤池信息准则,计算公式如下:
AIC = 2K – 2 ln (L)
金子:
- K:模型参数的数量。
- ln (L) :模型的对数似然。这告诉我们在给定数据的情况下模型的概率。
但是,您可以选择使用其他指标来评估回归模型的拟合度,包括交叉验证预测误差、Cp、BIC、AIC 或调整后的R2 。
幸运的是,大多数统计软件允许您指定在回顾性筛选时要使用哪个指标。
其他资源
以下教程提供有关回归模型的其他信息: