Найкращий вибір підмножини в машинному навчанні (пояснення та приклади)
У машинному навчанні ми часто хочемо будувати моделі, використовуючи набір змінних предикторів і змінну відповіді . Наша мета полягає в тому, щоб побудувати модель, яка може ефективно використовувати змінні предиктора для прогнозування значення змінної відповіді.
Враховуючи набір із p загальних змінних предиктора, існує багато моделей, які ми потенційно можемо побудувати. Один із методів, який ми можемо використовувати для вибору найкращої моделі, відомий як вибір найкращої підмножини та працює наступним чином:
1. Нехай M 0 — нульова модель, яка не містить прогнозної змінної.
2. Для k = 1, 2, … p:
- Підібрати всі p C k моделі, які містять рівно k предикторів.
- Виберіть найкращу серед цих моделей pCk і назвіть її Mk . Визначте «найкращу» як модель з найвищим R 2 або, що еквівалентно, найнижчим RSS.
3. Виберіть одну найкращу модель з M 0 … M p , використовуючи помилку передбачення перехресної перевірки, Cp, BIC, AIC або скоригований R 2 .
Зверніть увагу, що для набору з p предикторних змінних існує 2 p можливих моделей.
Приклад вибору найкращої підмножини
Припустимо, що ми маємо набір даних із p = 3 змінними предикторів і змінною відповіді y. Щоб виконати найкращий вибір підмножини з цим набором даних, ми підібрали б такі моделі 2 p = 2 3 = 8:
- Модель без предикторів
- Модель з предиктором х 1
- Модель з предиктором х 2
- Модель з предиктором х 3
- Модель з предикторами x 1 , x 2
- Модель з предикторами x 1 , x 3
- Модель з предикторами x 2 , x 3
- Модель з предикторами x 1 , x 2 , x 3
Тоді ми виберемо модель з найвищим R2 з кожного набору моделей з k предикторами. Наприклад, ми можемо вибрати:
- Модель без предикторів
- Модель з предиктором х 2
- Модель з предикторами x 1 , x 2
- Модель з предикторами x 1 , x 2 , x 3
Потім ми проводимо перехресну перевірку та вибираємо найкращу модель як ту, яка призводить до найменшої похибки передбачення, Cp, BIC, AIC або скоригованого R2 .
Наприклад, ми можемо в кінцевому підсумку вибрати таку модель як «найкращу», оскільки вона дала найменшу помилку передбачення перехресної перевірки:
- Модель з предикторами x 1 , x 2
Критерії вибору «найкращої» моделі
Останнім кроком у виборі найкращої підмножини є вибір моделі з найменшою помилкою передбачення, найнижчим Cp, найнижчим BIC, найнижчим AIC або найнижчим скоригованим R2 . вище.
Ось формули, які використовуються для розрахунку кожного з цих показників:
Cp: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
BIC: (RSS+log(n)dσ̂ 2 ) / n
R 2 скоригований: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
золото:
- d: кількість предикторів
- n: Загальна кількість спостережень
- σ̂: Оцінка дисперсії помилки, пов’язаної з кожним показником відповіді в регресійній моделі
- RSS: залишкова сума квадратів регресійної моделі
- TSS: Загальна сума квадратів регресійної моделі
Переваги та недоліки вибору найкращої підмножини
Вибір найкращої підмножини дає такі переваги:
- Це простий підхід для розуміння та тлумачення.
- Це дозволяє нам визначити найкращу можливу модель, оскільки ми розглядаємо всі комбінації змінних предиктора.
Однак цей метод має наступні недоліки:
- Це може бути обчислювально інтенсивним. Для набору з p предикторних змінних існує 2 p можливих моделей. Наприклад, з 10 змінними предикторів є 2 10 = 1000 можливих моделей для розгляду.
- Оскільки він розглядає дуже велику кількість моделей, він потенційно може знайти модель, яка добре працює на навчальних даних, але не на майбутніх даних. Це може призвести до переобладнання .
Висновок
Хоча вибір найкращої підмножини легко реалізувати та зрозуміти, це може бути непрактичним, якщо ви працюєте з набором даних, що містить велику кількість предикторів, і потенційно може призвести до переобладнання.
Альтернативою цьому методу є покроковий вибір , який є більш ефективним з точки зору обчислень.