Що таке зворотний вибір? (визначення & #038; приклад)
У статистиці поетапний вибір — це процедура, яку ми можемо використати для побудови регресійної моделі з набору змінних предикторів шляхом покрокового введення та видалення предикторів у моделі, доки не буде статистично обґрунтованої причини для введення або видалити більше.
Метою поетапного відбору є створення моделі регресії, яка включає всі змінні предикторів, які статистично значимо пов’язані зі змінною відповіді .
Один із найпоширеніших методів покрокового вибору відомий як зворотний вибір , який працює таким чином:
Крок 1. Підберіть регресійну модель, використовуючи всі p- прогностичні змінні. Обчисліть значення AIC * для моделі.
Крок 2: Видаліть змінну предиктора, яка призводить до найбільшого зниження AIC, а також призводить до статистично значущого зниження AIC порівняно з моделлю з усіма змінними предикторів p .
Крок 3: Видаліть змінну предиктора, яка призводить до найбільшого зниження AIC, а також призводить до статистично значущого зниження AIC порівняно з моделлю зі змінними предикторів p-1 .
Повторюйте процес, доки видалення будь-яких змінних предиктора не призведе до статистично значущого зниження AIC.
* Є кілька показників, які можна використовувати для розрахунку відповідності регресійної моделі, зокрема помилка передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R2 . У прикладі нижче ми вирішили використовувати AIC.
У наступному прикладі показано, як виконати зворотний вибір у R.
Приклад: зворотний вибір у R
Для цього прикладу ми використаємо набір даних mtcars , вбудований у R:
#view first six rows of mtcars
head(mtcars)
mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1
Ми підберемо модель множинної лінійної регресії, використовуючи mpg (милі на галон) як змінну відповіді та інші 10 змінних у наборі даних як потенційні змінні прогнозу.
Наступний код показує, як зробити крок назад:
#define intercept-only model intercept_only <- lm(mpg ~ 1, data=mtcars) #define model with all predictors all <- lm(mpg ~ ., data=mtcars) #perform backward stepwise regression backward <- step(all, direction=' backward ', scope= formula (all), trace=0) #view results of backward stepwise regression backward$anova Step Df Deviance Resid. Df Resid. Dev AIC 1 NA NA 21 147.4944 70.89774 2 - cyl 1 0.07987121 22 147.5743 68.91507 3 - vs 1 0.26852280 23 147.8428 66.97324 4 - carb 1 0.68546077 24 148.5283 65.12126 5 - gear 1 1.56497053 25 150.0933 63.45667 6 - drat 1 3.34455117 26 153.4378 62.16190 7 - available 1 6.62865369 27 160.0665 61.51530 8 - hp 1 9.21946935 28 169.2859 61.30730 #view final model backward$coefficients (Intercept) wt qsec am 9.617781 -3.916504 1.225886 2.935837
Ось як інтерпретувати результати:
Спочатку ми підбираємо модель, використовуючи 10 змінних предиктора, і обчислюємо AIC моделі.
Далі ми видалили змінну ( cyl ), яка призвела до найбільшого зниження AIC, а також отримали статистично значуще зниження AIC порівняно з моделлю з 10 змінними предикторів.
Далі ми видалили змінну ( vs ), яка призвела до найбільшого зниження AIC, а також отримали статистично значуще зниження AIC порівняно з моделлю змінної предиктора з 9 предикторами.
Далі ми вилучили змінну ( carb ), яка призвела до найбільшого зниження AIC, а також отримали статистично значуще зниження AIC порівняно з моделлю змінних із 8 предикторами.
Ми повторювали цей процес, доки видалення жодної змінної більше не призводило до статистично значущого зниження AIC.
Остаточна модель виходить такою:
mpg = 9,62 – 3,92*вага + 1,23*qsec + 2,94*am
Примітка щодо використання AIC
У попередньому прикладі ми вирішили використовувати AIC як показник для оцінки відповідності різних регресійних моделей.
AIC розшифровується як інформаційний критерій Akaike і розраховується таким чином:
AIC = 2K – 2 ln (L)
золото:
- K: Кількість параметрів моделі.
- ln (L) : логарифм правдоподібності моделі. Це говорить нам про ймовірність моделі з урахуванням даних.
Однак існують інші показники, які ви можете використовувати для оцінки відповідності регресійних моделей, зокрема помилка передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R2 .
На щастя, більшість статистичного програмного забезпечення дозволяє вам вказати, який показник ви хочете використовувати під час ретроспективного скринінгу.
Додаткові ресурси
У наступних посібниках надається додаткова інформація про регресійні моделі:
Вступ до прямого відбору
Посібник із мультиколінеарності та VIF у регресії
Що вважається хорошим значенням AIC?