Посібник із мультиколінеарності та vif у регресії
Мультиколінеарність у регресійному аналізі виникає, коли дві або більше змінних предиктора сильно корельовані одна з одною, так що вони не надають унікальної чи незалежної інформації в моделі регресії.
Якщо ступінь кореляції між змінними досить високий, це може спричинити проблеми під час підгонки та інтерпретації регресійної моделі.
Наприклад, припустімо, що ви виконуєте регресійний аналіз, використовуючи змінну відповіді максимального вертикального стрибка та наступні змінні предиктора:
- висота
- розмір взуття
- годин, витрачених на тренування на день
У цьому випадку зріст і розмір взуття , ймовірно, сильно корелюють, оскільки високі люди, як правило, мають більший розмір взуття. Це означає, що мультиколінеарність, ймовірно, буде проблемою в цій регресії.
Цей посібник пояснює, чому мультиколінеарність є проблемою, як її виявити та як її виправити.
Чому мультиколінеарність є проблемою
Однією з головних цілей регресійного аналізу є виявлення зв’язку між кожною змінною предиктора та змінною відповіді.
Зокрема, коли ми виконуємо регресійний аналіз, ми інтерпретуємо кожен коефіцієнт регресії як середню зміну змінної відповіді, припускаючи, що всі інші змінні предиктора в моделі залишаються постійними.
Це означає, що ми припускаємо, що ми можемо змінити значення даної змінної предиктора, не змінюючи значень інших змінних предиктора.
Однак, коли дві або більше змінних предиктора сильно корельовані, стає важко змінити одну змінну без зміни іншої.
Це ускладнює регресійній моделі незалежну оцінку зв’язку між кожною змінною предиктора та змінною відповіді, оскільки змінні предиктора мають тенденцію змінюватися в унісон.
Загалом, мультиколінеарність породжує два типи проблем:
- Оцінки коефіцієнтів моделі (і навіть знаки коефіцієнтів) можуть значно коливатися залежно від інших змінних предиктора, включених до моделі.
- Точність оцінок коефіцієнтів знижується, що робить p-значення ненадійними. Це ускладнює визначення того, які прогностичні змінні насправді є статистично значущими.
Як виявити мультиколінеарність
Найпоширенішим способом виявлення мультиколінеарності є використання коефіцієнта інфляції дисперсії (VIF) , який вимірює кореляцію та силу кореляції між змінними-прогнозами в регресійній моделі.
Використання фактора інфляції дисперсії (VIF)
Більшість статистичного програмного забезпечення має можливість обчислити VIF для регресійної моделі. Значення VIF починається з 1 і не має верхньої межі. Загальне правило інтерпретації VIF:
- Значення 1 вказує на відсутність кореляції між даною змінною предиктора та будь-якою іншою змінною предиктора в моделі.
- Значення від 1 до 5 вказує на помірну кореляцію між даною змінною предиктором та іншими змінними предиктора в моделі, але часто вона недостатньо серйозна, щоб вимагати особливої уваги.
- Значення більше 5 вказує на потенційно серйозну кореляцію між даною змінною предиктора та іншими змінними предиктора в моделі. У цьому випадку оцінки коефіцієнтів і p-значення в результатах регресії, ймовірно, ненадійні.
Наприклад, припустімо, що ми виконуємо регресійний аналіз з використанням змінних предикторів зростання , розміру взуття та годин, витрачених на тренування на день, щоб передбачити максимальний вертикальний стрибок баскетболістів і отримати такий результат:
В останньому стовпці ми бачимо, що значення VIF для зросту та розміру взуття обидва перевищують 5. Це вказує на те, що вони, ймовірно, страждають від мультиколінеарності та що їхні оцінки коефіцієнтів і p-значення, ймовірно, ненадійні.
Якщо ми подивимося на оцінку коефіцієнта для розміру взуття, модель говорить нам, що для кожної додаткової одиниці збільшення розміру взуття середнє збільшення максимального вертикального стрибка становить -0,67498 дюйма, припускаючи, що зріст і години тренувань залишаються незмінними.
Здається, це не має сенсу, враховуючи, що ми очікуємо, що гравці з більшим взуттям будуть вищими, а отже, матимуть вищий максимальний вертикальний стрибок.
Це класичний приклад мультиколінеарності, через який оцінки коефіцієнтів здаються дещо надуманими та неінтуїтивними.
Як вирішити мультиколінеарність
Якщо ви виявите мультиколінеарність, наступним кроком буде вирішити, чи потрібно вам якось її вирішити. Залежно від мети регресійного аналізу вам може не знадобитися вирішувати мультиколінеарність.
Знати:
1. Якщо існує лише помірна мультиколінеарність, ймовірно, вам не потрібно буде її вирішувати будь-яким способом.
2. Мультиколінеарність впливає лише на змінні предиктора, які корельовані одна з одною. Якщо вас цікавить змінна предиктора в моделі, яка не страждає від мультиколінеарності, тоді мультиколінеарність не є проблемою.
3. Мультиколінеарність впливає на оцінки коефіцієнтів і p-значення, але не впливає на прогнози чи статистику відповідності. Це означає, що якщо вашою основною метою регресії є прогнозування, і ви не зацікавлені в розумінні точного зв’язку між змінними предиктора та змінною відповіді, тоді мультиколінеарність не потрібно вирішувати.
Якщо ви визначите, що вам потрібно виправити мультиколінеарність, деякі загальні рішення включають:
1. Видаліть одну або кілька сильно корельованих змінних. Це найшвидше рішення в більшості випадків і часто є прийнятним рішенням, оскільки змінні, які ви видаляєте, все одно є зайвими та додають мало унікальної чи незалежної інформації до моделі.
2. Лінійно поєднує змінні предикторів певним чином, наприклад, додаючи або віднімаючи їх певним чином. Таким чином ви можете створити нову змінну, яка охоплює інформацію з обох змінних, і у вас більше не буде проблеми мультиколінеарності.
3. Виконайте аналіз, призначений для врахування сильно корельованих змінних, наприклад аналіз головних компонентів або регресію часткових найменших квадратів (PLS) . Ці методи спеціально розроблені для роботи з висококорельованими змінними предикторів.