Вступ до регресії головних компонентів
Однією з найпоширеніших проблем, з якою ви зіткнетеся під час створення моделей, є мультиколінеарність . Це відбувається, коли дві або більше змінних предиктора в наборі даних сильно корельовані.
Коли це станеться, дана модель може добре відповідати навчальному набору даних, але, швидше за все, вона працюватиме погано на новому наборі даних, який вона ніколи не бачила, оскільки він переповнює навчальний набір.
Один зі способів уникнути переобладнання — використовувати певний тип методу вибору підмножини , наприклад:
Ці методи намагаються видалити з моделі нерелевантні предиктори, щоб у кінцевій моделі залишилися лише найважливіші предиктори, здатні передбачити варіацію змінної відповіді.
Ще один спосіб уникнути переобладнання – це використовувати певний тип методу регулярізації , наприклад:
Ці методи намагаються обмежити або впорядкувати коефіцієнти моделі, щоб зменшити дисперсію і таким чином створити моделі, здатні добре узагальнювати нові дані.
Зовсім інший підхід до роботи з мультиколінеарністю відомий як розмірна редукція .
Загальний метод зменшення розмірності відомий як регресія головних компонентів , який працює таким чином:
1. Припустимо, що заданий набір даних містить p предикторів :
2. Обчисліть Z 1 , … , Z M як M лінійних комбінацій вихідних p предикторів.
- Z m = ΣΦ jm _
- Z 1 — це лінійна комбінація предикторів, яка фіксує якомога більшу дисперсію.
- Z 2 є наступною лінійною комбінацією предикторів, яка фіксує найбільшу дисперсію, будучи ортогональною (тобто некорельованою) до Z 1 .
- Тоді Z 3 є наступною лінійною комбінацією предикторів, яка фіксує найбільшу дисперсію, будучи ортогональною до Z 2 .
- І так далі.
3. Використовуйте метод найменших квадратів, щоб підібрати модель лінійної регресії, використовуючи перші M головних компонентів Z 1 , …, Z M як предиктори.
Термін зменшення розмірності походить від того факту, що цей метод повинен оцінювати лише коефіцієнти M+1 замість коефіцієнтів p+1, де M < p.
Іншими словами, розмірність проблеми зменшено з p+1 до M+1.
У багатьох випадках, коли в наборі даних присутня мультиколінеарність, регресія головних компонентів може створити модель, яка може узагальнювати нові дані краще, ніж звичайна множинна лінійна регресія .
Кроки для виконання регресії головних компонентів
На практиці для виконання регресії головних компонентів використовуються такі кроки:
1. Стандартизуйте предиктори.
По-перше, ми зазвичай стандартизуємо дані таким чином, щоб кожна змінна предиктора мала середнє значення 0 і стандартне відхилення 1. Це запобігає надто сильному впливу одного предиктора, особливо якщо він вимірюється в різних одиницях (c, тобто якщо 1 вимірюється в дюймах). і X 2 вимірюється в ярдах).
2. Обчисліть головні компоненти та виконайте лінійну регресію, використовуючи головні компоненти як предиктори.
Далі ми обчислюємо головні компоненти та використовуємо метод найменших квадратів, щоб підібрати модель лінійної регресії з використанням перших M головних компонентів Z 1 , …, Z M як предикторів.
3. Вирішіть, скільки основних компонентів залишити.
Далі ми використовуємо k-кратну перехресну перевірку , щоб знайти оптимальну кількість основних компонентів для збереження в моделі. «Оптимальна» кількість головних компонентів, яку потрібно зберегти, зазвичай є кількістю, яка дає найменшу середньоквадратичну помилку (MSE) тесту.
Переваги та недоліки регресії головних компонентів
Регресія головного компонента (ПЛР) має такі переваги :
- ПЛР, як правило, працює добре, коли перші головні компоненти здатні охопити більшість варіацій предикторів, а також зв’язок зі змінною відповіді.
- ПЛР може працювати добре, навіть якщо змінні предиктора сильно корельовані, оскільки вона виробляє головні компоненти, ортогональні (тобто некорельовані) один одному.
- Для ПЛР не потрібно вибирати, які змінні предиктора вилучити з моделі, оскільки кожен головний компонент використовує лінійну комбінацію всіх змінних предиктора.
- ПЛР можна використовувати, коли прогностичних змінних більше, ніж спостережень, на відміну від множинної лінійної регресії.
Однак ПЛР має недолік:
- ПЛР не бере до уваги змінну відповіді, коли вирішує, які основні компоненти залишити або видалити. Замість цього враховується лише величина дисперсії між змінними предикторів, охопленими головними компонентами. Можливо, що в деяких випадках головні компоненти з найбільшими відмінностями не зможуть добре передбачити змінну відповіді.
На практиці ми підбираємо багато різних типів моделей (ПЛР, Рідж, Ласо, множинна лінійна регресія тощо) і використовуємо k-кратну перехресну перевірку, щоб визначити модель, яка дає найнижчий тест MSE на нових даних.
У випадках, коли мультиколінеарність присутня у вихідному наборі даних (що часто буває), PCR має тенденцію працювати краще, ніж звичайна регресія найменших квадратів. Однак доцільно підібрати кілька різних моделей, щоб ви могли визначити, яка з них найкраще узагальнює невидимі дані.
Регресія основного компонента в R & Python
У наступних посібниках показано, як виконувати регресію основних компонентів у R і Python:
Регресія головного компонента в R (покроково)
Регресія основного компонента в Python (крок за кроком)