Як перевірити мультиколінеарність у spss
Мультиколінеарність у регресійному аналізі виникає, коли дві або більше змінних предиктора сильно корельовані одна з одною, тому вони не надають унікальної чи незалежної інформації в регресійній моделі. Якщо ступінь кореляції між змінними досить високий, це може спричинити проблеми під час підгонки та інтерпретації регресійної моделі.
Одним із способів виявити мультиколінеарність є використання метрики, відомої як коефіцієнт інфляції дисперсії (VIF) , який вимірює кореляцію та силу кореляції між змінними прогнозу в регресійній моделі.
У цьому посібнику пояснюється, як використовувати VIF для виявлення мультиколінеарності в регресійному аналізі в SPSS.
Приклад: мультиколінеарність у SPSS
Припустімо, що ми маємо наступний набір даних, який показує іспитовий бал 10 студентів, а також кількість годин, які вони витратили на навчання, кількість практичних іспитів, які вони склали, і їхні поточні оцінки за курс:
Ми хотіли б виконати лінійну регресію з використанням оцінки як змінної відповіді та годин , prep_exams і current_grade як змінних предиктора, але ми хочемо переконатися, що три змінні предиктора не сильно корельовані.
Щоб визначити, чи є мультиколінеарність проблемою, ми можемо створити значення VIF для кожної зі змінних предиктора.
Для цього клацніть вкладку «Аналіз» , потім «Регресія» , потім «Лінійна» :
У новому вікні, що з’явиться, перетягніть оцінку в поле з позначкою «Залежна» та перетягніть три змінні-прогностики в поле з позначкою «Незалежні». Потім клацніть «Статистика» та переконайтеся, що встановлено прапорець «Діагностика колінеарності» . Потім натисніть Продовжити . Потім натисніть OK .
Після натискання кнопки OK з’явиться наведена нижче таблиця зі значенням VIF для кожної змінної предиктора:
Значення VIF для кожної зі змінних предикторів такі:
- годин: 1 169
- підготовчі іспити: 1403
- поточний бал: 1,522
Значення VIF починається з 1 і не має верхньої межі. Загальне правило інтерпретації VIF:
- Значення 1 вказує на відсутність кореляції між даною змінною предиктора та будь-якою іншою змінною предиктора в моделі.
- Значення від 1 до 5 вказує на помірну кореляцію між даною змінною предиктором та іншими змінними предиктора в моделі, але часто вона недостатньо серйозна, щоб вимагати особливої уваги.
- Значення більше 5 вказує на потенційно серйозну кореляцію між даною змінною предиктора та іншими змінними предиктора в моделі. У цьому випадку оцінки коефіцієнтів і p-значення в результатах регресії, ймовірно, ненадійні.
Ми бачимо, що жодне зі значень VIF для змінних предиктора в цьому прикладі не перевищує 5, що вказує на те, що мультиколінеарність не буде проблемою в моделі регресії.