Что такое поэтапный отбор? (объяснение и примеры)


В области машинного обучения наша цель — создать модель, которая сможет эффективно использовать набор переменных-предсказателей для прогнозирования значения переменной отклика .

Учитывая набор из p общих переменных-предсказателей, мы потенциально могли бы построить множество моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как выбор лучшего подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые можно построить с помощью набора предикторов.

К сожалению, этот метод имеет два недостатка:

  • Это может потребовать больших вычислительных ресурсов. Для набора p переменных-предикторов существует 2 p возможных моделей. Например, при 10 переменных-предикторах необходимо рассмотреть 2 10 = 1000 возможных моделей.
  • Поскольку он рассматривает очень большое количество моделей, он потенциально может найти модель, которая хорошо работает с обучающими данными, но не с будущими данными. Это может привести к переоснащению .

Альтернатива выбору лучшего подмножества известна как пошаговый выбор , при котором сравнивается гораздо меньший набор моделей.

Существует два типа методов выбора шага: выбор шага вперед и выбор шага назад.

Пошаговый выбор вперед

Пошаговый прямой выбор работает следующим образом:

1. Пусть M 0 — нулевая модель, не содержащая прогнозируемой переменной.

2. Для k = 0, 2, … p-1:

  • Подберите все модели pk, которые увеличивают предикторы в M k , с помощью дополнительной переменной-предиктора.
  • Выберите лучшую среди этих моделей pk и назовите ее M k+1 . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.

3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .

Пошаговый обратный выбор

Выбор шага назад работает следующим образом:

1. Пусть M p — полная модель, содержащая все p прогнозирующих переменных.

2. Для k = p, p-1,… 1:

  • Подберите все модели k, которые содержат все предикторы кроме одного в Mk , в общей сложности k-1 переменных предикторов.
  • Выберите лучшую среди этих k моделей и назовите ее M k-1 . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.

3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .

Критерии выбора «лучшей» модели

Последним шагом пошагового прямого и обратного выбора является выбор модели с наименьшей ошибкой прогнозирования, самым низким Cp, самым низким BIC, самым высоким низким AIC или самым высоким скорректированным R 2 .

Вот формулы, используемые для расчета каждого из этих показателей:

КП: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )

БИК: (RSS+log(n)dσ̂ 2 )/n

R 2 скорректирован: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Золото:

  • d: Количество предикторов
  • n: Общее количество наблюдений
  • σ̂: Оценка дисперсии ошибки, связанной с каждой мерой ответа в регрессионной модели.
  • RSS: Остаточная сумма квадратов регрессионной модели.
  • TSS: общая сумма квадратов регрессионной модели.

Преимущества и недостатки поэтапного отбора

Поэтапный отбор дает следующие преимущества :

Этот метод более эффективен в вычислительном отношении, чем выбор лучшего подмножества. Учитывая p переменных-предикторов, выбор лучшего подмножества должен соответствовать 2 p моделям.

И наоборот, пошаговый выбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предсказателей лучший выбор подмножества должен соответствовать 1000 моделям, тогда как пошаговый выбор должен соответствовать только 56 моделям.

Однако поэтапный отбор имеет следующий потенциальный недостаток:

Не гарантируется, что будет найдена лучшая модель среди всех потенциальных моделей 2p .

Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x 1 , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x 1 и x 2 .

В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M 1 будет содержать x 1 , поэтому M 2 также должен содержать x 1 , а также еще одну переменную.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *