Вступ до часткових найменших квадратів
Одна з найпоширеніших проблем, з якою ви зіткнетеся під час машинного навчання, — мультиколінеарність . Це відбувається, коли дві або більше змінних предиктора в наборі даних сильно корельовані.
Коли це трапляється, модель може добре відповідати навчальному набору даних, але може працювати погано на новому наборі даних, який вона ніколи не бачила, оскільки він переповнює навчальний набір даних. навчальний набір.
Одним зі способів обійти проблему мультиколінеарності є використання регресії головних компонентів , яка обчислює M лінійних комбінацій (званих «головними компонентами») вихідних p змінних предиктора, а потім використовує метод найменших квадратів, щоб відповідати моделі лінійної регресії за допомогою принципу компоненти як предиктори.
Недоліком регресії головних компонентів (PCR) є те, що вона не враховує змінну відповіді під час розрахунку головних компонентів.
Замість цього враховується лише величина дисперсії між змінними предикторів, охопленими головними компонентами. З цієї причини можливо, що в деяких випадках головні компоненти з найбільшими відхиленнями не зможуть добре передбачити змінну відповіді.
Техніка, пов’язана з ПЛР, відома як часткові найменші квадрати . Подібно до ПЛР, часткові найменші квадрати обчислюють M лінійних комбінацій (так звані «компоненти PLS») вихідних p змінних предикторів і використовують метод найменших квадратів для відповідності моделі лінійної регресії з використанням компонентів PLS як предикторів.
Але на відміну від ПЛР, метод часткових найменших квадратів намагається знайти лінійні комбінації, які пояснюють варіації як змінної відповіді, так і змінних предиктора.
Етапи виконання часткових методів найменших квадратів
На практиці наступні кроки використовуються для виконання часткових найменших квадратів.
1. Стандартизуйте дані таким чином, щоб усі змінні прогнозу та змінна відповіді мали середнє значення 0 і стандартне відхилення 1. Це гарантує, що кожна змінна вимірюється в одній шкалі.
2. Обчисліть Z 1 , … , Z M як M лінійних комбінацій вихідних p предикторів.
- Z m = ΣΦ jm _
- Щоб обчислити Z 1 , встановіть Φ j1 рівним коефіцієнту простої лінійної регресії Y на X j — це лінійна комбінація предикторів, яка фіксує якомога більшу дисперсію.
- Щоб обчислити Z 2 , регресуйте кожну змінну на Z 1 і візьміть залишки. Потім обчисліть Z 2 , використовуючи ці ортогоналізовані дані точно так само, як було обчислено Z 1 .
- Повторіть цей процес M разів, щоб отримати M компонентів PLS.
3. Використовуйте метод найменших квадратів для підгонки моделі лінійної регресії з використанням компонентів PLS Z 1 , … , Z M як предикторів.
4. Нарешті, використовуйте k-кратну перехресну перевірку , щоб знайти оптимальну кількість компонентів PLS для збереження в моделі. «Оптимальна» кількість компонентів PLS, яку потрібно зберегти, зазвичай є кількістю, яка дає найменшу тестову середньоквадратичну помилку (MSE).
Висновок
У випадках, коли в наборі даних присутня мультиколінеарність, часткова регресія найменших квадратів має тенденцію працювати краще, ніж звичайна регресія найменших квадратів. Однак доцільно підібрати кілька різних моделей, щоб ви могли визначити, яка з них найкраще узагальнює невидимі дані.
На практиці ми підбираємо багато різних типів моделей (PLS, PCR , Ridge , Lasso , Multiple Linear Regression тощо) до набору даних і використовуємо k-кратну перехресну перевірку, щоб визначити модель, яка дає найкращий тест MSE. нижче за новими даними. .