Что такое обратный отбор? (определение & #038; пример)
В статистике пошаговый отбор — это процедура, которую мы можем использовать для построения модели регрессии из набора переменных-предикторов путем поэтапного ввода и удаления предикторов в модели до тех пор, пока не исчезнет статистически обоснованная причина для ввода. или удалите больше.
Целью пошагового выбора является создание модели регрессии, включающей все переменные-предикторы, которые статистически значимо связаны с переменной ответа .
Один из наиболее часто используемых методов пошагового выбора известен как обратный выбор , который работает следующим образом:
Шаг 1. Подберите модель регрессии, используя все переменные-предикторы p . Рассчитайте значение AIC * для модели.
Шаг 2: Удалите переменную-предиктор, которая приводит к наибольшему снижению AIC, а также приводит к статистически значимому снижению AIC по сравнению с моделью со всеми переменными-предикторами p .
Шаг 3: Удалите переменную-предиктор, которая приводит к наибольшему снижению AIC, а также приводит к статистически значимому снижению AIC по сравнению с моделью с переменными-предикторами p-1 .
Повторяйте процесс до тех пор, пока удаление каких-либо переменных-предикторов не перестанет приводить к статистически значимому снижению AIC.
* Существует несколько показателей, которые можно использовать для расчета степени соответствия регрессионной модели, включая ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R2 . В приведенном ниже примере мы решили использовать AIC.
В следующем примере показано, как выполнить обратный выбор в R.
Пример: обратный выбор в R
В этом примере мы будем использовать набор данных mtcars , встроенный в R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Мы подберем модель множественной линейной регрессии, используя мили на галлон (мили на галлон) в качестве переменной отклика, а остальные 10 переменных в наборе данных — в качестве потенциальных переменных-предсказателей.
Следующий код показывает, как сделать шаг назад:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Вот как интерпретировать результаты:
Сначала мы подгоняем модель, используя 10 переменных-предикторов, и вычисляем AIC модели.
Затем мы удалили переменную ( cyl ), которая привела к наибольшему снижению AIC, а также получили статистически значимое снижение AIC по сравнению с моделью с 10 переменными-предикторами.
Затем мы удалили переменную ( vs ), которая привела к наибольшему снижению AIC, а также получили статистически значимое снижение AIC по сравнению с моделью переменных-предикторов с 9 предикторами.
Затем мы удалили переменную ( carb ), которая привела к наибольшему снижению AIC, а также получили статистически значимое снижение AIC по сравнению с моделью переменных с 8 предикторами.
Мы повторяли этот процесс до тех пор, пока удаление какой-либо переменной не переставало приводить к статистически значимому снижению AIC.
Итоговая модель получается:
миль на галлон = 9,62 – 3,92*вес + 1,23*ксек + 2,94*утренняя пора
Примечание по использованию AIC
В предыдущем примере мы решили использовать AIC в качестве метрики для оценки соответствия различных моделей регрессии.
AIC означает информационный критерий Акаике и рассчитывается следующим образом:
АИК = 2К – 2 ln (L)
Золото:
- K: Количество параметров модели.
- ln (L) : Логарифмическое правдоподобие модели. Это говорит нам о вероятности модели с учетом данных.
Однако существуют и другие показатели, которые вы можете использовать для оценки соответствия регрессионных моделей, включая ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R2 .
К счастью, большинство статистических программ позволяют вам указать, какой показатель вы хотите использовать при ретроспективном скрининге.
Дополнительные ресурсы
Следующие руководства предоставляют дополнительную информацию о моделях регрессии:
Введение в прямой отбор
Руководство по мультиколлинеарности и VIF в регрессии
Что считается хорошим значением AIC?