Выбор лучшего подмножества в машинном обучении (объяснение и примеры)


В машинном обучении мы часто хотим строить модели, используя набор переменных-предикторов и переменную отклика . Наша цель — построить модель, которая сможет эффективно использовать переменные-предикторы для прогнозирования значения переменной отклика.

Учитывая набор из p общих переменных-предсказателей, мы потенциально могли бы построить множество моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как выбор лучшего подмножества и работает следующим образом:

1. Пусть M 0 — нулевая модель, не содержащая прогнозируемой переменной.

2. Для k = 1, 2, … p:

  • Подберите все модели p C k , которые содержат ровно k предикторов.
  • Выберите лучшую среди этих моделей ПК и назовите ее Mk . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.

3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .

Обратите внимание, что для набора p переменных-предикторов существует 2 p возможных моделей.

Пример выбора лучшего подмножества

Предположим, у нас есть набор данных с p = 3 переменными-предикторами и переменной отклика y. Чтобы выполнить лучший выбор подмножества с этим набором данных, мы бы подогнали следующие модели 2 p = 2 3 = 8:

  • Модель без предикторов
  • Модель с предиктором x 1
  • Модель с предиктором x 2
  • Модель с предиктором x 3
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 3
  • Модель с предикторами x 2 , x 3
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы бы выбрали модель с самым высоким R2 из каждого набора моделей с k предикторами. Например, мы можем в конечном итоге выбрать:

  • Модель без предикторов
  • Модель с предиктором x 2
  • Модель с предикторами x 1 , x 2
  • Модель с предикторами x 1 , x 2 , x 3

Затем мы провели перекрестную проверку и выбрали лучшую модель, которая дает наименьшую ошибку прогноза: Cp, BIC, AIC или скорректированный R2 .

Например, мы могли бы в конечном итоге выбрать следующую модель в качестве «лучшей» модели, поскольку она дает наименьшую ошибку прогнозирования при перекрестной проверке:

  • Модель с предикторами x 1 , x 2

Критерии выбора «лучшей» модели

Последним шагом в выборе лучшего подмножества является выбор модели с наименьшей ошибкой прогнозирования, наименьшим Cp, наименьшим BIC, наименьшим AIC или наименьшим скорректированным R2 . выше.

Вот формулы, используемые для расчета каждого из этих показателей:

КП: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 )/n

R 2 скорректирован: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Золото:

  • d: Количество предикторов
  • n: Общее количество наблюдений
  • σ̂: Оценка дисперсии ошибки, связанной с каждой мерой ответа в регрессионной модели.
  • RSS: Остаточная сумма квадратов регрессионной модели.
  • TSS: общая сумма квадратов регрессионной модели.

Преимущества и недостатки выбора лучшего подмножества

Выбор лучшего подмножества дает следующие преимущества:

  • Это простой подход для понимания и интерпретации.
  • Это позволяет нам определить наилучшую возможную модель, поскольку мы рассматриваем все комбинации переменных-предикторов.

Однако этот метод имеет следующие недостатки:

  • Это может потребовать больших вычислительных ресурсов. Для набора p переменных-предикторов существует 2 p возможных моделей. Например, при 10 переменных-предикторах необходимо рассмотреть 2 10 = 1000 возможных моделей.
  • Поскольку он рассматривает очень большое количество моделей, он потенциально может найти модель, которая хорошо работает с обучающими данными, но не с будущими данными. Это может привести к переоснащению .

Заключение

Хотя выбор лучшего подмножества прост в реализации и понимании, он может быть непрактичным, если вы работаете с набором данных, содержащим большое количество предикторов, и потенциально может привести к переобучению.

Альтернатива этому методу известна как пошаговый выбор , который более эффективен в вычислительном отношении.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *