Выбор лучшего подмножества в машинном обучении (объяснение и примеры)
В машинном обучении мы часто хотим строить модели, используя набор переменных-предикторов и переменную отклика . Наша цель — построить модель, которая сможет эффективно использовать переменные-предикторы для прогнозирования значения переменной отклика.
Учитывая набор из p общих переменных-предсказателей, мы потенциально могли бы построить множество моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как выбор лучшего подмножества и работает следующим образом:
1. Пусть M 0 — нулевая модель, не содержащая прогнозируемой переменной.
2. Для k = 1, 2, … p:
- Подберите все модели p C k , которые содержат ровно k предикторов.
- Выберите лучшую среди этих моделей ПК и назовите ее Mk . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.
3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .
Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.
Пример выбора лучшего подмножества
Предположим, у нас есть набор данных с p = 3 переменными-предикторами и переменной отклика y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы бы подогнали следующие модели 2 p = 2 3 = 8:
- Модель без предикторов
- Модель с предиктором x 1
- Модель с предиктором x 2
- Модель с предиктором x 3
- Модель с предикторами x 1 , x 2
- Модель с предикторами x 1 , x 3
- Модель с предикторами x 2 , x 3
- Модель с предикторами x 1 , x 2 , x 3
Затем мы бы выбрали модель с самым высоким R2 из каждого набора моделей с k предикторами. Например, мы можем в конечном итоге выбрать:
- Модель без предикторов
- Модель с предиктором x 2
- Модель с предикторами x 1 , x 2
- Модель с предикторами x 1 , x 2 , x 3
Затем мы провели перекрестную проверку и выбрали лучшую модель, которая дает наименьшую ошибку прогноза: Cp, BIC, AIC или скорректированный R2 .
Например, мы могли бы в конечном итоге выбрать следующую модель в качестве «лучшей» модели, поскольку она дает наименьшую ошибку прогнозирования при перекрестной проверке:
- Модель с предикторами x 1 , x 2
Критерии выбора «лучшей» модели
Последним шагом в выборе лучшего подмножества является выбор модели с наименьшей ошибкой прогнозирования, наименьшим Cp, наименьшим BIC, наименьшим AIC или наименьшим скорректированным R2 . выше.
Вот формулы, используемые для расчета каждого из этих показателей:
КП: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
БИК: (RSS+log(n)dσ̂ 2 )/n
R 2 скорректирован: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Золото:
- d: Количество предикторов
- n: Общее количество наблюдений
- σ̂: Оценка дисперсии ошибки, связанной с каждой мерой ответа в регрессионной модели.
- RSS: Остаточная сумма квадратов регрессионной модели.
- TSS: общая сумма квадратов регрессионной модели.
Преимущества и недостатки выбора лучшего подмножества
Выбор лучшего подмножества дает следующие преимущества:
- Это простой подход для понимания и интерпретации.
- Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.
Однако этот метод имеет следующие недостатки:
- Это может потребовать больших вычислительных ресурсов. Для набора p переменных-предикторов существует 2 p возможных моделей. Например, при 10 переменных-предикторах необходимо рассмотреть 2 10 = 1000 возможных моделей.
- Поскольку он рассматривает очень большое количество моделей, он потенциально может найти модель, которая хорошо работает с обучающими данными, но не с будущими данными. Это может привести к переоснащению .
Заключение
Хотя выбор лучшего подмножества прост в реализации и понимании, он может быть непрактичным, если вы работаете с набором данных, содержащим большое количество предикторов, и потенциально может привести к переобучению.
Альтернатива этому методу известна как пошаговый выбор , который более эффективен в вычислительном отношении.