Що таке поетапний відбір? (пояснення та приклади)


У сфері машинного навчання наша мета — створити модель, яка може ефективно використовувати набір змінних предикторів для прогнозування значення змінної відповіді .

Враховуючи набір із p загальних змінних предиктора, існує багато моделей, які ми потенційно можемо побудувати. Один метод, який ми можемо використати для вибору найкращої моделі, відомий як вибір найкращої підмножини , який намагається вибрати найкращу модель з усіх можливих моделей, які можна побудувати за допомогою набору предикторів.

На жаль, цей метод має два недоліки:

  • Це може бути обчислювально інтенсивним. Для набору з p предикторних змінних існує 2 p можливих моделей. Наприклад, з 10 змінними предикторів є 2 10 = 1000 можливих моделей для розгляду.
  • Оскільки він розглядає дуже велику кількість моделей, він потенційно може знайти модель, яка добре працює на навчальних даних, але не на майбутніх даних. Це може призвести до переобладнання .

Альтернативою вибору найкращої підмножини є поетапний вибір , який порівнює набагато менший набір моделей.

Існує два типи методів вибору кроку: вибір кроку вперед і вибір кроку назад.

Покроковий вибір

Покроковий вибір вперед працює наступним чином:

1. Нехай M 0 — нульова модель, яка не містить прогнозної змінної.

2. Для k = 0, 2, … p-1:

  • Підібрати всі моделі pk, які збільшують предиктори в M k за допомогою додаткової змінної предиктора.
  • Виберіть найкращу серед цих pk моделей і назвіть її M k+1 . Визначте «найкращу» як модель з найвищим R 2 або, що еквівалентно, найнижчим RSS.

3. Виберіть одну найкращу модель з M 0 … M p , використовуючи помилку передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R 2 .

Покроковий вибір назад

Вибір кроку назад працює таким чином:

1. Нехай M p — повна модель, яка містить усі p прогнозних змінних.

2. Для k = p, p-1, … 1:

  • Підібрати всі k моделей, які містять усі предиктори, крім одного, у Mk , для загальної кількості k-1 змінних предикторів.
  • Виберіть найкращу серед цих k моделей і назвіть її M k-1 . Визначте «найкращу» як модель з найвищим R 2 або, що еквівалентно, найнижчим RSS.

3. Виберіть одну найкращу модель з M 0 … M p , використовуючи помилку передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R 2 .

Критерії вибору «найкращої» моделі

Останнім кроком поетапного вибору вперед і назад є вибір моделі з найменшою помилкою передбачення, найнижчим Cp, найнижчим BIC, найвищим AIC, низьким або найвищим скоригованим R 2 .

Ось формули, які використовуються для розрахунку кожного з цих показників:

Cp: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS+log(n)dσ̂ 2 ) / n

R 2 скоригований: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

золото:

  • d: кількість предикторів
  • n: Загальна кількість спостережень
  • σ̂: Оцінка дисперсії помилки, пов’язаної з кожним показником відповіді в регресійній моделі
  • RSS: залишкова сума квадратів регресійної моделі
  • TSS: Загальна сума квадратів регресійної моделі

Переваги та недоліки поетапного відбору

Поетапний відбір має такі переваги :

Цей метод ефективніший з точки зору обчислень, ніж вибір найкращої підмножини. Враховуючи p предикторних змінних, вибір найкращої підмножини повинен відповідати 2 p моделям.

І навпаки, поетапний вибір має відповідати лише моделям 1+p(p+ 1)/2. Для p = 10 змінних предиктора найкращий вибір підмножини повинен відповідати 1000 моделям, тоді як поетапний вибір має відповідати лише 56 моделям.

Однак поетапний відбір має такі потенційні недоліки:

Немає гарантії, що знайдеться найкраща можлива модель серед усіх потенційних моделей 2p .

Наприклад, припустимо, що ми маємо набір даних із p = 3 предикторами. Найкраща можлива модель з одним предиктором може містити x 1 , а найкраща можлива модель з двома предикторами може містити x 1 і x 2 замість цього.

У цьому випадку прямий покроковий вибір не зможе вибрати найкращу можливу модель із двома предикторами, оскільки M 1 міститиме x 1 , тому M 2 також має містити x 1 , а також іншу змінну.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *