Что такое поэтапный отбор? (объяснение и примеры)

К бенджамин андерсон 27 июля, 2023 Гид 0 комментариев

В области машинного обучения наша цель — создать модель, которая сможет эффективно использовать набор переменных-предсказателей для прогнозирования значения переменной отклика .

Учитывая набор из p общих переменных-предсказателей, мы потенциально могли бы построить множество моделей. Один из методов, который мы можем использовать для выбора лучшей модели, известен как выбор лучшего подмножества , который пытается выбрать лучшую модель из всех возможных моделей, которые можно построить с помощью набора предикторов.

К сожалению, этот метод имеет два недостатка:

Это может потребовать больших вычислительных ресурсов. Для набора p переменных-предикторов существует 2 ^p возможных моделей. Например, при 10 переменных-предикторах необходимо рассмотреть 2 ¹⁰ = 1000 возможных моделей.
Поскольку он рассматривает очень большое количество моделей, он потенциально может найти модель, которая хорошо работает с обучающими данными, но не с будущими данными. Это может привести к переоснащению .

Альтернатива выбору лучшего подмножества известна как пошаговый выбор , при котором сравнивается гораздо меньший набор моделей.

Существует два типа методов выбора шага: выбор шага вперед и выбор шага назад.

Пошаговый выбор вперед

Пошаговый прямой выбор работает следующим образом:

1. Пусть M ₀ — нулевая модель, не содержащая прогнозируемой переменной.

2. Для k = 0, 2, … p-1:

Подберите все модели pk, которые увеличивают предикторы в M _k , с помощью дополнительной переменной-предиктора.
Выберите лучшую среди этих моделей pk и назовите ее M _k+1 . Определите «лучшую» как модель с самым высоким R ² или, что то же самое, с самым низким RSS.

3. Выберите одну лучшую модель из M ₀ … M _p , используя ошибку прогнозирования перекрестной проверки, Cp, BIC, AIC или скорректированный R ² .

Пошаговый обратный выбор

Выбор шага назад работает следующим образом:

1. Пусть M _p — полная модель, содержащая все p прогнозирующих переменных.

2. Для k = p, p-1,… 1:

Подберите все модели k, которые содержат все предикторы кроме одного в _Mk , в общей сложности k-1 переменных предикторов.
Выберите лучшую среди этих k моделей и назовите ее M _k-1 . Определите «лучшую» как модель с самым высоким R ² или, что то же самое, с самым низким RSS.

Критерии выбора «лучшей» модели

Последним шагом пошагового прямого и обратного выбора является выбор модели с наименьшей ошибкой прогнозирования, самым низким Cp, самым низким BIC, самым высоким низким AIC или самым высоким скорректированным R ² .

Вот формулы, используемые для расчета каждого из этих показателей:

КП: (RSS+2dσ̂) / n

AIC: (RSS+2dσ̂ ² ) / (nσ̂ ² )

БИК: (RSS+log(n)dσ̂ ² )/n

R ² скорректирован: 1 – ( (RSS / (nd-1)) / (TSS / (n-1)) )

Золото:

d: Количество предикторов
n: Общее количество наблюдений
σ̂: Оценка дисперсии ошибки, связанной с каждой мерой ответа в регрессионной модели.
RSS: Остаточная сумма квадратов регрессионной модели.
TSS: общая сумма квадратов регрессионной модели.

Преимущества и недостатки поэтапного отбора

Поэтапный отбор дает следующие преимущества :

Этот метод более эффективен в вычислительном отношении, чем выбор лучшего подмножества. Учитывая p переменных-предикторов, выбор лучшего подмножества должен соответствовать 2 ^p моделям.

И наоборот, пошаговый выбор должен соответствовать только моделям 1+p(p+1)/2. Для p = 10 переменных-предсказателей лучший выбор подмножества должен соответствовать 1000 моделям, тогда как пошаговый выбор должен соответствовать только 56 моделям.

Однако поэтапный отбор имеет следующий потенциальный недостаток:

Не гарантируется, что будет найдена лучшая модель среди всех потенциальных моделей ^2p .

Например, предположим, что у нас есть набор данных с p = 3 предикторами. Наилучшая возможная модель с одним предиктором может содержать x ₁ , а наилучшая возможная модель с двумя предикторами может вместо этого содержать x ₁ и x ₂ .

В этом случае прямой пошаговый выбор не сможет выбрать наилучшую возможную модель с двумя предикторами, потому что M ₁ будет содержать x ₁ , поэтому M ₂ также должен содержать x ₁ , а также еще одну переменную.

Об авторе

бенджамин андерсон

Здравствуйте, я Бенджамин, профессор статистики на пенсии, ставший преданным преподавателем Statorials. Имея обширный опыт и знания в области статистики, я хочу поделиться своими знаниями, чтобы расширить возможности студентов с помощью Statorials. Узнать больше