Як перевірити мультиколінеарність у stata


Мультиколінеарність у регресійному аналізі виникає, коли дві або більше пояснювальних змінних сильно корельовані одна з одною, так що вони не надають унікальної чи незалежної інформації в регресійній моделі. Якщо ступінь кореляції між змінними досить високий, це може спричинити проблеми під час підгонки та інтерпретації регресійної моделі.

Наприклад, припустімо, що ви виконуєте множинну лінійну регресію з такими змінними:

Варіативна відповідь: максимальний вертикальний стрибок

Пояснювальні змінні: розмір взуття, зріст, час, витрачений на практику

У цьому випадку пояснювальні змінні розмір взуття та висота, ймовірно, сильно корелюють, оскільки високі люди, як правило, мають більший розмір взуття. Це означає, що мультиколінеарність, ймовірно, буде проблемою в цій регресії.

На щастя, можна виявити мультиколінеарність за допомогою метрики, що називається фактором інфляції дисперсії (VIF) , який вимірює кореляцію та силу кореляції між пояснювальними змінними в регресійній моделі.

У цьому посібнику пояснюється, як використовувати VIF для виявлення мультиколінеарності в регресійному аналізі в Stata.

Приклад: мультиколінеарність у Stata

Для цього прикладу ми використаємо вбудований набір даних Stata під назвою auto . Використовуйте таку команду, щоб завантажити набір даних:

використовувати автоматично

Ми використаємо команду regress , щоб підібрати множинну лінійну регресійну модель, використовуючи ціну як змінну відповіді та вагу, довжину та милю на галон як пояснювальні змінні:

регресія ціна вага довжина mpg

Вихід множинної лінійної регресії в Stata

Далі ми використаємо команду vive для перевірки мультиколінеарності:

жвавий

VIF в Stata

Це створює значення VIF для кожної з пояснювальних змінних у моделі. Значення VIF починається з 1 і не має верхньої межі. Загальне правило інтерпретації VIF:

  • Значення 1 вказує на відсутність кореляції між даною пояснювальною змінною та будь-якою іншою пояснювальною змінною в моделі.
  • Значення від 1 до 5 вказує на помірну кореляцію між даною пояснювальною змінною та іншими пояснювальними змінними в моделі, але часто вона недостатньо серйозна, щоб вимагати особливої уваги.
  • Значення більше 5 вказує на потенційно серйозну кореляцію між даною пояснювальною змінною та іншими пояснювальними змінними в моделі. У цьому випадку оцінки коефіцієнтів і p-значення в результатах регресії, ймовірно, ненадійні.

Ми бачимо, що значення VIF для ваги та довжини перевищують 5, що вказує на те, що мультиколінеарність, ймовірно, є проблемою в регресійній моделі.

Як боротися з мультиколінеарністю

Часто найпростіший спосіб впоратися з мультиколінеарністю — просто видалити одну з проблемних змінних, тому що змінна, яку ви видаляєте, ймовірно, все одно є зайвою та додає мало унікальної або незалежної інформації до моделі.

Щоб визначити, яку змінну потрібно видалити, ми можемо використати команду corr для створення кореляційної матриці для відображення коефіцієнтів кореляції між кожною зі змінних у моделі, що може допомогти нам визначити, які змінні можуть сильно корелювати одна з одною та спричинити проблема мультиколінеарності:

corr ціна вага довжина mpg

Кореляційна матриця в Stata

Ми бачимо, що довжина сильно корелює як з вагою, так і з милями на галон, і має найнижчу кореляцію з ціною змінної відповіді. Таким чином, видалення довжини моделі може вирішити проблему мультиколінеарності без зниження загальної якості регресійної моделі.

Щоб перевірити це, ми можемо знову запустити регресійний аналіз, використовуючи лише вагу та миль на галон як пояснювальні змінні:

регресія ціна вага mpg

Вихід множинної лінійної регресії в Stata

Ми бачимо, що скоригований R-квадрат цієї моделі становить 0,2735 порівняно з 0,3298 у попередній моделі. Це свідчить про те, що загальна корисність моделі лише трохи знизилася. Тоді ми можемо знайти значення VIF за допомогою команди VIF :

ЖВАКИЙ

Значення VIF в Stata

Обидва значення VIF менше 5, що вказує на те, що мультиколінеарність більше не є проблемою в моделі.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *