Що таке прямий відбір? (визначення & #038; приклад)


У статистиці поетапний вибір — це процедура, яку ми можемо використати для побудови регресійної моделі з набору змінних предикторів шляхом покрокового введення та видалення предикторів у моделі, доки не буде статистично обґрунтованої причини для введення або видалити більше.

Метою поетапного відбору є створення моделі регресії, яка включає всі змінні предикторів, які статистично значимо пов’язані зі змінною відповіді .

Один із найпоширеніших методів покрокового вибору відомий як прямий вибір , який працює таким чином:

Крок 1. Підберіть регресійну модель лише для перехоплення без змінних предиктора. Обчисліть значення AIC * для моделі.

Крок 2. Підберіть усі можливі регресійні моделі з одним прогнозом. Визначте модель, яка створила найнижчий AIC, а також мала статистично значуще зниження AIC порівняно з моделлю лише перехоплення.

Крок 3. Підберіть усі регресійні моделі до двох можливих предикторів. Визначте модель, яка дала найнижчий AIC, а також мала статистично значуще зниження AIC порівняно з моделлю з одним прогнозом.

Повторюйте процес, доки підгонка регресійної моделі з більшою кількістю змінних предикторів не призведе до статистично значущого зниження AIC.

* Є кілька показників, які можна використовувати для розрахунку відповідності регресійної моделі, зокрема помилка передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R2 . У прикладі нижче ми вирішили використовувати AIC.

У наступному прикладі показано, як виконати пряме виділення в R.

Приклад: прямий вибір у R

Для цього прикладу ми використаємо набір даних mtcars , вбудований у R:

 #view first six rows of mtcars
head(mtcars)

                   mpg cyl disp hp drat wt qsec vs am gear carb
Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
Valiant 18.1 6 225 105 2.76 3,460 20.22 1 0 3 1

Ми підберемо модель множинної лінійної регресії, використовуючи mpg (милі на галон) як змінну відповіді та інші 10 змінних у наборі даних як потенційні змінні прогнозу.

У наведеному нижче коді показано, як виконати вибір крок за кроком:

 #define intercept-only model
intercept_only <- lm(mpg ~ 1, data=mtcars)

#define model with all predictors
all <- lm(mpg ~ ., data=mtcars)

#perform forward stepwise regression
forward <- step(intercept_only, direction=' forward ', scope= formula (all), trace= 0 )

#view results of forward stepwise regression
forward$anova

   Step Df Deviance Resid. Df Resid. Dev AIC
1 NA NA 31 1126.0472 115.94345
2 + wt -1 847.72525 30 278.3219 73.21736
3 + cyl -1 87.14997 29 191.1720 63.19800
4 + hp -1 14.55145 28 176.6205 62.66456

#view final model
forward$coefficients

(Intercept) wt cyl hp 
 38.7517874 -3.1669731 -0.9416168 -0.0180381 

Ось як інтерпретувати результати:

По-перше, ми підходимо до моделі лише перехоплення. Ця модель мала AIC 115,94345 .

Потім ми підганяємо всі можливі моделі до предиктора. Модель, яка створила найнижчий AIC і також мала статистично значуще зниження AIC порівняно з моделлю лише перехоплення, використовувала предиктор wt . Ця модель мала AIC 73,21736 .

Далі ми підганяємо всі можливі моделі з двома предикторами. Модель, яка створювала найнижчий AIC і також мала статистично значуще зниження AIC порівняно з моделлю з одним предиктором, додала предиктор cyl . Ця модель мала AIC 63,19800 .

Далі ми підганяємо всі можливі моделі до трьох предикторів. Модель, яка створила найнижчий AIC і також мала статистично значуще зниження AIC порівняно з моделлю з двома предикторами, додала предиктор hp . Ця модель мала AIC 62,66456 .

Далі ми підганяємо всі можливі моделі до чотирьох предикторів. Виявилося, що жодна з цих моделей не призвела до значного зниження AIC, тому ми припинили процедуру.

Отже, кінцева модель виявляється такою:

mpg = 38,75 – 3,17*вага – 0,94*cyl – 0,02*hyp

Виявилося, що спроба додати до моделі більше змінних предикторів не призводить до статистично значущого зниження AIC.

Таким чином, ми робимо висновок, що найкращою моделлю є та, що має три прогнозні змінні: wt, cyl і hp.

Примітка щодо використання AIC

У попередньому прикладі ми вирішили використовувати AIC як метрику для оцінки відповідності різних регресійних моделей.

AIC розшифровується як інформаційний критерій Akaike і розраховується таким чином:

AIC = 2K – 2 ln (L)

золото:

  • K: Кількість параметрів моделі.
  • ln (L) : логарифм правдоподібності моделі. Це говорить нам про те, наскільки ймовірно модель базується на даних.

Однак існують інші показники, які ви можете використовувати для оцінки відповідності регресійних моделей, зокрема помилка передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R2 .

На щастя, більшість статистичних програм дозволяє вам указати, який показник ви хочете використовувати під час безпосереднього вибору.

Додаткові ресурси

У наступних посібниках надається додаткова інформація про регресійні моделі:

Посібник із мультиколінеарності та VIF у регресії
Що вважається хорошим значенням AIC?

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *