Введение в регрессию главных компонентов


Одной из наиболее распространенных проблем, с которыми вы можете столкнуться при создании моделей, является мультиколлинеарность . Это происходит, когда две или более переменных-предикторов в наборе данных сильно коррелируют.

Когда это происходит, данная модель может хорошо соответствовать набору обучающих данных, но, скорее всего, она будет плохо работать с новым набором данных, которого она никогда не видела, поскольку он не соответствует обучающему набору.

Один из способов избежать переоснащения — использовать какой-либо метод выбора подмножества , например:

Эти методы пытаются удалить ненужные предикторы из модели, чтобы в окончательной модели остались только наиболее важные предикторы, способные предсказать изменение переменной отклика.

Другой способ избежать переоснащения — использовать какой-либо метод регуляризации , например:

Эти методы пытаются ограничить или регуляризировать коэффициенты модели, чтобы уменьшить дисперсию и, таким образом, создать модели, способные хорошо обобщать новые данные.

Совершенно другой подход к решению проблемы мультиколлинеарности известен как уменьшение размерностей .

Распространенный метод уменьшения размерности известен как регрессия главных компонентов , который работает следующим образом:

1. Предположим, что данный набор данных содержит p предикторов :

2. Вычислить Z 1 , … , Z M как M линейных комбинаций исходных p- предикторов.

  • Z м = ΣΦ jm _
  • Z 1 — это линейная комбинация предикторов, которая фиксирует как можно большую дисперсию.
  • Z 2 является следующей линейной комбинацией предикторов, которая фиксирует наибольшую дисперсию, будучи при этом ортогональной (т. е. некоррелированной) с Z 1 .
  • Z 3 тогда является следующей линейной комбинацией предикторов, которая фиксирует наибольшую дисперсию, будучи ортогональной Z 2 .
  • И так далее.

3. Используйте метод наименьших квадратов, чтобы подобрать модель линейной регрессии, используя первые M главных компонентов Z 1 , …, Z M в качестве предикторов.

Термин «уменьшение размерности» исходит из того факта, что этот метод должен оценивать только коэффициенты M+1 вместо коэффициентов p+1, где M <p.

Другими словами, размерность задачи уменьшилась с p+1 до M+1.

Во многих случаях, когда в наборе данных присутствует мультиколлинеарность, регрессия главных компонентов способна создать модель, которая может обобщать новые данные лучше, чем обычная множественная линейная регрессия .

Шаги по выполнению регрессии главных компонентов

На практике для выполнения регрессии главных компонентов используются следующие шаги:

1. Стандартизировать предикторы.

Во-первых, мы обычно стандартизируем данные таким образом, чтобы каждая переменная-предиктор имела среднее значение 0 и стандартное отклонение 1. Это предотвращает слишком большое влияние одного предиктора, особенно если он измеряется в разных единицах (то есть, если 1 измеряется в дюймах). и X 2 измеряется в ярдах).

2. Рассчитайте главные компоненты и выполните линейную регрессию, используя главные компоненты в качестве предикторов.

Затем мы вычисляем главные компоненты и используем метод наименьших квадратов для подбора модели линейной регрессии, используя первые M главных компонентов Z 1 , …, Z M в качестве предикторов.

3. Решите, сколько основных компонентов оставить.

Затем мы используем k-кратную перекрестную проверку , чтобы найти оптимальное количество главных компонентов, которые следует сохранить в модели. «Оптимальным» количеством главных компонентов, которое следует сохранить, обычно является число, которое дает наименьшую среднеквадратичную ошибку (MSE) теста.

Преимущества и недостатки регрессии главных компонентов

Регрессия главных компонентов (ПЦР) предлагает следующие преимущества :

  • ПЦР имеет тенденцию работать хорошо, когда первые основные компоненты способны уловить большую часть вариаций предикторов, а также взаимосвязь с переменной ответа.
  • ПЦР может работать хорошо, даже если переменные-предикторы сильно коррелируют, поскольку он создает основные компоненты, которые ортогональны (т.е. некоррелированы) друг другу.
  • PCR не требует от вас выбора, какие переменные-предикторы удалить из модели, поскольку каждый главный компонент использует линейную комбинацию всех переменных-предикторов.
  • ПЦР можно использовать, когда переменных-предикторов больше, чем наблюдений, в отличие от множественной линейной регрессии.

Однако у ПЦР есть недостаток:

  • ПЦР не учитывает переменную ответа при принятии решения о том, какие основные компоненты оставить или удалить. Вместо этого он учитывает только величину дисперсии между переменными-предикторами, зафиксированными главными компонентами. Вполне возможно, что в некоторых случаях основные компоненты с наибольшими различиями не смогут хорошо предсказать переменную отклика.

На практике мы подбираем множество различных типов моделей (ПЦР, Ридж, Лассо, множественная линейная регрессия и т. д.) и используем k-кратную перекрестную проверку, чтобы определить модель, которая дает наименьший тест MSE на новых данных.

В тех случаях, когда в исходном наборе данных присутствует мультиколлинеарность (что часто бывает), ПЦР имеет тенденцию работать лучше, чем обычная регрессия наименьших квадратов. Однако хорошей идеей будет объединить несколько разных моделей, чтобы можно было определить, какая из них лучше всего обобщает невидимые данные.

Регрессия главных компонентов в R и Python

В следующих руководствах показано, как выполнить регрессию главных компонентов в R и Python:

Регрессия главных компонентов в R (шаг за шагом)
Регрессия главных компонентов в Python (шаг за шагом)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *