Когда использовать регрессию гребня и лассо


В обычной множественной линейной регрессии мы используем набор переменных-предикторов p и переменную отклика, чтобы соответствовать модели вида:

Y = β 0 + β 1 X 1 + β 2 X 2 + … + β p

Значения β 0 , β 1 , B 2 , …, β p выбираются методом наименьших квадратов, минимизирующим сумму квадратов остатков (RSS):

RSS = Σ(y i – ŷ i ) 2

Золото:

  • Σ : Символ, означающий «сумма».
  • y i : фактическое значение ответа для i-го наблюдения
  • ŷ i : Прогнозируемое значение ответа для i- го наблюдения.

Проблема мультиколлинеарности в регрессии

Проблема, которая часто возникает на практике при использовании множественной линейной регрессии, — это мультиколлинеарность — когда две или более переменных-предикторов сильно коррелируют друг с другом, так что они не предоставляют уникальную или независимую информацию в модели регрессии.

Это может сделать оценки коэффициентов модели ненадежными и привести к высокой дисперсии. То есть, когда модель применяется к новому набору данных, которого она никогда раньше не видела, она, скорее всего, будет работать плохо.

Как избежать мультиколлинеарности: регрессия Риджа и Лассо

Два метода, которые мы можем использовать, чтобы обойти эту проблему мультиколлинеарности, — это гребневая регрессия и лассо-регрессия .

Ридж-регрессия стремится минимизировать следующее:

  • RSS + λΣβ j 2

Лассо-регрессия стремится минимизировать следующее:

  • RSS + λΣ|β j |

В обоих уравнениях второй член называется штрафом за снятие средств .

Когда λ = 0, этот штрафной член не имеет никакого эффекта, и регрессия гребня и регрессия лассо дают те же оценки коэффициентов, что и метод наименьших квадратов.

Однако по мере того, как λ приближается к бесконечности, штраф за усадку становится более влиятельным, и прогностические переменные, которые не могут быть импортированы в модель, уменьшаются до нуля.

При использовании регрессии Лассо некоторые коэффициенты могут стать полностью нулевыми , когда λ станет достаточно большим.

Преимущества и недостатки регрессии гребня и лассо

Преимущество регрессии Риджа и Лассо перед регрессией наименьших квадратов заключается в компромиссе между смещением и дисперсией .

Напомним, что среднеквадратическая ошибка (MSE) — это показатель, который мы можем использовать для измерения точности данной модели, и он рассчитывается следующим образом:

MSE = Var( f̂( x 0 )) + [Смещение ( f̂( x 0 ))] 2 + Var(ε)

MSE = дисперсия + смещение 2 + неустранимая ошибка

Основная идея Ридж-регрессии и Лассо-регрессии состоит в том, чтобы ввести небольшое смещение, чтобы можно было значительно уменьшить дисперсию, что приведет к более низкому общему MSE.

Чтобы проиллюстрировать это, рассмотрим следующий график:

Компромисс между смещением и дисперсией гребневой регрессии

Обратите внимание, что по мере увеличения λ дисперсия значительно уменьшается при очень небольшом увеличении смещения. Однако за определенной точкой дисперсия убывает медленнее и уменьшение коэффициентов приводит к их существенному занижению, что приводит к резкому увеличению систематической ошибки.

Из графика видно, что MSE теста является самым низким, когда мы выбираем значение λ, которое обеспечивает оптимальный компромисс между смещением и дисперсией.

Когда λ = 0, штрафной член в лассо-регрессии не имеет никакого эффекта и, следовательно, дает те же оценки коэффициентов, что и метод наименьших квадратов. Однако, увеличив λ до определенной точки, мы можем уменьшить общую MSE теста.

Компромисс смещения и дисперсии лассо-регрессии

Это означает, что аппроксимация модели с помощью регрессии гребня и лассо потенциально может привести к меньшим ошибкам теста, чем аппроксимация модели с помощью регрессии наименьших квадратов.

Недостатком регрессии Риджа и Лассо является то, что становится трудно интерпретировать коэффициенты в окончательной модели, поскольку они сжимаются к нулю.

Таким образом, регрессию Риджа и Лассо следует использовать, когда вы хотите оптимизировать способность прогнозирования, а не делать выводы.

Ридж против. Лассо-регрессия: когда использовать каждый

L-ассо-регрессия и гребневая регрессия известны как методы регуляризации , поскольку оба они пытаются минимизировать остаточную сумму квадратов (RSS), а также определенный штрафной член.

Другими словами, они ограничивают или регуляризируют оценки коэффициентов модели.

Естественно, возникает вопрос: что лучше — гребневая или лассо-регрессия?

В тех случаях, когда значимыми являются лишь небольшое количество переменных-предикторов, лассо-регрессия имеет тенденцию работать лучше, поскольку она способна полностью свести незначимые переменные к нулю и удалить их из модели.

Однако, когда многие переменные-предикторы являются значимыми в модели и их коэффициенты примерно равны, гребневая регрессия имеет тенденцию работать лучше, поскольку она сохраняет все предикторы в модели.

Чтобы определить, какая модель лучше всего подходит для прогнозирования, мы обычно выполняем k-кратную перекрестную проверку и выбираем модель, которая дает наименьшую среднеквадратическую ошибку теста.

Дополнительные ресурсы

В следующих руководствах представлено введение в ридж-регрессию и лассо-регрессию:

В следующих руководствах объясняется, как выполнить оба типа регрессии в R и Python:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *