Что такое поэтапный отбор? (объяснение и примеры)
В области машинного обучения наша цель — создать модель, которая сможет эффективно использовать набор переменных-предсказателей для прогнозирования значения переменной отклика .
Учитывая набор из p общих переменных-предсказателей, мы потенциально могли бы построить множество моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как выбор лучшего подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые можно построить с помощью набора предикторов.
К сожалению, этот метод имеет два недостатка:
- Это может потребовать больших вычислительных ресурсов. Для набора p переменных-предикторов существует 2 p возможных моделей. Например, при 10 переменных-предикторах необходимо рассмотреть 2 10 = 1000 возможных моделей.
- Поскольку он рассматривает очень большое количество моделей, он потенциально может найти модель, которая хорошо работает с обучающими данными, но не с будущими данными. Это может привести к переоснащению .
Альтернатива выбору лучшего подмножества известна как пошаговый выбор , при котором сравнивается гораздо меньший набор моделей.
Существует два типа методов выбора шага: выбор шага вперед и выбор шага назад.
Пошаговый выбор вперед
Пошаговый прямой выбор работает следующим образом:
1. Пусть M 0 — нулевая модель, не содержащая прогнозируемой переменной.
2. Для k = 0, 2, … p-1:
- Подберите все модели pk, которые увеличивают предикторы в M k , с помощью дополнительной переменной-предиктора.
- Выберите лучшую среди этих моделей pk и назовите ее M k+1 . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.
3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .
Пошаговый обратный выбор
Выбор шага назад работает следующим образом:
1. Пусть M p — полная модель, содержащая все p прогнозирующих переменных.
2. Для k = p, p-1,… 1:
- Подберите все модели k, которые содержат все предикторы кроме одного в Mk , в общей сложности k-1 переменных предикторов.
- Выберите лучшую среди этих k моделей и назовите ее M k-1 . Определите «лучшую» как модель с самым высоким R 2 или, что то же самое, с самым низким RSS.
3. Выберите одну лучшую модель из M 0 … M p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R 2 .
Критерии выбора «лучшей» модели
Последним шагом пошагового прямого и обратного выбора является выбор модели с наименьшей ошибкой прогнозирования, самым низким Cp, самым низким BIC, самым высоким низким AIC или самым высоким скорректированным R 2 .
Вот формулы, используемые для расчета каждого из этих показателей:
КП: (RSS+2dσ̂) / n
AIC: (RSS+2dσ̂ 2 ) / (nσ̂ 2 )
БИК: (RSS+log(n)dσ̂ 2 )/n
R 2 скорректирован: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )
Золото:
- d: Количество предикторов
- n: Общее количество наблюдений
- σ̂: Оценка дисперсии ошибки, связанной с каждой мерой ответа в регрессионной модели.
- RSS: Остаточная сумма квадратов регрессионной модели.
- TSS: общая сумма квадратов регрессионной модели.
Преимущества и недостатки поэтапного отбора
Поэтапный отбор дает следующие преимущества :
Этот метод более эффективен в вычислительном отношении, чем выбор лучшего подмножества. Учитывая p переменных-предикторов, выбор лучшего подмножества должен соответствовать 2 p моделям.
И наоборот, пошаговый выбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предсказателей лучший выбор подмножества должен соответствовать 1000 моделям, тогда как пошаговый выбор должен соответствовать только 56 моделям.
Однако поэтапный отбор имеет следующий потенциальный недостаток:
Не гарантируется, что будет найдена лучшая модель среди всех потенциальных моделей 2p .
Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x 1 , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x 1 и x 2 .
В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M 1 будет содержать x 1 , поэтому M 2 также должен содержать x 1 , а также еще одну переменную.