Введение в метод частичных наименьших квадратов
Одна из наиболее распространенных проблем, с которыми вы можете столкнуться в машинном обучении, — это мультиколлинеарность . Это происходит, когда две или более переменных-предикторов в наборе данных сильно коррелируют.
Когда это происходит, модель может хорошо соответствовать набору обучающих данных, но может плохо работать с новым набором данных, которого она никогда не видела, поскольку он не соответствует набору обучающих данных. Обучающий набор.
Один из способов обойти проблему мультиколлинеарности — использовать регрессию главных компонентов , которая вычисляет M линейных комбинаций (называемых «главными компонентами») исходных переменных-предикторов p , а затем использует метод наименьших квадратов для подбора модели линейной регрессии с использованием принципа компоненты как предикторы.
Недостатком регрессии главных компонентов (PCR) является то, что она не учитывает переменную отклика при вычислении главных компонентов.
Вместо этого он учитывает только величину дисперсии между переменными-предикторами, зафиксированными главными компонентами. По этой причине возможно, что в некоторых случаях главные компоненты с наибольшими отклонениями не смогут хорошо предсказать переменную отклика.
Метод, связанный с ПЦР, известен как частичные наименьшие квадраты . Подобно PCR, метод частичных наименьших квадратов вычисляет M линейных комбинаций (называемых «компонентами PLS») исходных переменных-предикторов p и использует метод наименьших квадратов для подбора модели линейной регрессии с использованием компонентов PLS в качестве предикторов.
Но в отличие от ПЦР, метод частичных наименьших квадратов пытается найти линейные комбинации, которые объясняют изменение как переменной ответа, так и переменных-предикторов.
Шаги по выполнению частичного наименьших квадратов
На практике для выполнения частичного наименьших квадратов используются следующие шаги.
1. Стандартизируйте данные таким образом, чтобы все переменные-предикторы и переменная отклика имели среднее значение 0 и стандартное отклонение 1. Это гарантирует, что каждая переменная измеряется по одной и той же шкале.
2. Вычислить Z 1 , … , Z M как M линейных комбинаций исходных p- предикторов.
- Z м = ΣΦ jm _
- Чтобы вычислить Z 1 , установите Φ j1 равным коэффициенту простой линейной регрессии Y на X j — это линейная комбинация предикторов, которая фиксирует как можно большую дисперсию.
- Чтобы вычислить Z 2 , регрессируйте каждую переменную по Z 1 и возьмите остатки. Затем вычислите Z 2 , используя эти ортогональные данные, точно так же, как рассчитывалось Z 1 .
- Повторите этот процесс M раз, чтобы получить M компонентов PLS.
3. Используйте метод наименьших квадратов, чтобы подобрать модель линейной регрессии, используя компоненты PLS Z 1 , … , Z M в качестве предикторов.
4. Наконец, используйте k-кратную перекрестную проверку , чтобы найти оптимальное количество компонентов PLS для сохранения в модели. «Оптимальным» количеством сохраняемых компонентов PLS обычно является число, которое дает наименьшую среднеквадратическую ошибку теста (MSE).
Заключение
В тех случаях, когда в наборе данных присутствует мультиколлинеарность, регрессия частичных наименьших квадратов имеет тенденцию работать лучше, чем обычная регрессия наименьших квадратов. Однако хорошей идеей будет объединить несколько разных моделей, чтобы можно было определить, какая из них лучше всего обобщает невидимые данные.
На практике мы подбираем множество различных типов моделей (PLS, PCR , Ridge , Lasso , множественная линейная регрессия и т. д.) к набору данных и используем k-кратную перекрестную проверку, чтобы определить модель, которая лучше всего дает тест MSE. ниже по новым данным. .