Що таке поетапний відбір? (пояснення та приклади)
У сфері машинного навчання наша мета — створити модель, яка може ефективно використовувати набір змінних предикторів для прогнозування значення змінної відповіді .
Враховуючи набір із p загальних змінних предиктора, існує багато моделей, які ми потенційно можемо побудувати. Один метод, який ми можемо використати для вибору найкращої моделі, відомий як вибір найкращої підмножини , який намагається вибрати найкращу модель з усіх можливих моделей, які можна побудувати за допомогою набору предикторів.
На жаль, цей метод має два недоліки:
- Це може бути обчислювально інтенсивним. Для набору з p предикторних змінних існує 2 p можливих моделей. Наприклад, з 10 змінними предикторів є 2 10 = 1000 можливих моделей для розгляду.
- Оскільки він розглядає дуже велику кількість моделей, він потенційно може знайти модель, яка добре працює на навчальних даних, але не на майбутніх даних. Це може призвести до переобладнання .
Альтернативою вибору найкращої підмножини є поетапний вибір , який порівнює набагато менший набір моделей.
Існує два типи методів вибору кроку: вибір кроку вперед і вибір кроку назад.
Покроковий вибір
Покроковий вибір вперед працює наступним чином:
1. Нехай M 0 — нульова модель, яка не містить прогнозної змінної.
2. Для k = 0, 2, … p-1:
- Підібрати всі моделі pk, які збільшують предиктори в M k за допомогою додаткової змінної предиктора.
- Виберіть найкращу серед цих pk моделей і назвіть її M k+1 . Визначте «найкращу» як модель з найвищим R 2 або, що еквівалентно, найнижчим RSS.
3. Виберіть одну найкращу модель з M 0 … M p , використовуючи помилку передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R 2 .
Покроковий вибір назад
Вибір кроку назад працює таким чином:
1. Нехай M p — повна модель, яка містить усі p прогнозних змінних.
2. Для k = p, p-1, … 1:
- Підібрати всі k моделей, які містять усі предиктори, крім одного, у Mk , для загальної кількості k-1 змінних предикторів.
- Виберіть найкращу серед цих k моделей і назвіть її M k-1 . Визначте «найкращу» як модель з найвищим R 2 або, що еквівалентно, найнижчим RSS.
3. Виберіть одну найкращу модель з M 0 … M p , використовуючи помилку передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R 2 .
Критерії вибору «найкращої» моделі
Останнім кроком поетапного вибору вперед і назад є вибір моделі з найменшою помилкою передбачення, найнижчим Cp, найнижчим BIC, найвищим AIC, низьким або найвищим скоригованим R 2 .
Ось формули, які використовуються для розрахунку кожного з цих показників:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 скоригований: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
золото:
- d: кількість предикторів
- n: Загальна кількість спостережень
- σ̂: Оцінка дисперсії помилки, пов’язаної з кожним показником відповіді в регресійній моделі
- RSS: залишкова сума квадратів регресійної моделі
- TSS: Загальна сума квадратів регресійної моделі
Переваги та недоліки поетапного відбору
Поетапний відбір має такі переваги :
Цей метод ефективніший з точки зору обчислень, ніж вибір найкращої підмножини. Враховуючи p предикторних змінних, вибір найкращої підмножини повинен відповідати 2 p моделям.
І навпаки, поетапний вибір має відповідати лише моделям 1+p(p+ 1)/2. Для p = 10 змінних предиктора найкращий вибір підмножини повинен відповідати 1000 моделям, тоді як поетапний вибір має відповідати лише 56 моделям.
Однак поетапний відбір має такі потенційні недоліки:
Немає гарантії, що знайдеться найкраща можлива модель серед усіх потенційних моделей 2p .
Наприклад, припустимо, що ми маємо набір даних із p = 3 предикторами. Найкраща можлива модель з одним предиктором може містити x 1 , а найкраща можлива модель з двома предикторами може містити x 1 і x 2 замість цього.
У цьому випадку прямий покроковий вибір не зможе вибрати найкращу можливу модель із двома предикторами, оскільки M 1 міститиме x 1 , тому M 2 також має містити x 1 , а також іншу змінну.