Мультиколінеарність

У цій статті пояснюється, що таке мультиколінеарність у статистиці. Отже, ви дізнаєтеся, коли існує мультиколінеарність, які наслідки мультиколінеарності, як визначити мультиколінеарність і, нарешті, як вирішити цю проблему.

Що таке мультиколінеарність?

Мультиколінеарність – це ситуація, яка виникає, коли дві або більше пояснювальних змінних у регресійній моделі мають високу кореляцію. Іншими словами, у регресійній моделі мультиколінеарність існує, коли зв’язок між двома чи більше змінними в моделі дуже сильний.

Наприклад, якщо ми запустимо регресійну модель, яка пов’язує очікувану тривалість життя країни з чисельністю її населення та ВВП, напевно виникне мультиколінеарність між чисельністю населення та ВВП, оскільки ці дві змінні, як правило, сильно корелюють. корельовані. Тому буде важко проаналізувати вплив кожної змінної на тривалість життя.

Логічно, що змінні в моделі завжди будуть корельовані одна з одною; лише в ідилічному процесі між змінними виникає некореляція. Однак те, що нас цікавить, полягає в тому, що кореляція між змінними низька, інакше ми не можемо знати вплив кожної пояснювальної змінної на змінну відповіді.

Основними причинами мультиколінеарності є, як правило, малий розмір вибірки, існування причинно-наслідкового зв’язку між пояснювальними змінними або низька мінливість спостережень.

Види мультиколінеарності

Існує два види мультиколінеарності:

  • Точна мультиколінеарність : коли одна або більше змінних є лінійною комбінацією інших змінних. У цьому випадку коефіцієнт кореляції між мультиколінеарними змінними дорівнює 1.
  • Приблизна мультиколінеарність : між змінними немає лінійної комбінації, але коефіцієнт детермінації між двома чи більше змінними дуже близький до 1, і тому вони сильно корельовані.

Наслідки мультиколінеарності

  • Значення коефіцієнтів регресії моделі змінюється, коли додаються корелюючі змінні, що ускладнює інтерпретацію отриманої регресійної моделі.
  • Точність оцінки параметрів знижується, тому стандартна помилка коефіцієнтів регресії зростає.
  • Деякі змінні, що спричиняють мультиколінеарність, безумовно, є зайвими, тому немає необхідності включати їх у модель.
  • Цілком ймовірно, що ви потрапили в ситуацію переобладнання, тобто модель переобладнана і з цієї причини непридатна для прогнозування.
  • Р-значення коефіцієнтів регресії стають менш надійними. Тому складніше визначити, які змінні включити, а які видалити в модель регресії.

Як виявити мультиколінеарність

Одним із способів ідентифікації мультиколінеарності є обчислення кореляційної матриці , оскільки вона містить коефіцієнт кореляції між усіма змінними і, отже, її можна спостерігати, якщо пара змінних сильно корельована.

Однак за допомогою кореляційної матриці ви можете лише знати, чи пов’язані дві змінні одна з одною, але ви не можете знати, чи існує комбінація між набором змінних. Для цього зазвичай розраховується коефіцієнт інфляції дисперсії.

Коефіцієнт інфляції дисперсії (VIF) , також званий фактором інфляції дисперсії (VIF) , є статистичним коефіцієнтом, який розраховується для кожної пояснювальної змінної та вказує на кореляцію інших змінних із даною пояснювальною змінною. Конкретно його формула така:

FIV_i=\cfrac{1}{1-R_i^2}

золото

FIV_i

коефіцієнт інфляції дисперсії змінної iy

R_i^2

є коефіцієнтом детермінації регресійної моделі, яка має змінну i як залежну змінну, а решту змінних як незалежні змінні.

Таким чином, залежно від значення отриманих коефіцієнтів інфляції дисперсії, можна дізнатися, чи існує мультиколінеарність чи ні:

  • VIF = 1 : коли коефіцієнт інфляції дисперсії дорівнює 1, це означає, що немає кореляції між залежною змінною та іншими змінними.
  • 1 < IVF < 5 : існує кореляція між змінними, але вона помірна. В принципі, немає необхідності застосовувати будь-які дії для виправлення мультиколінеарності.
  • VIF > 5 : якщо коефіцієнт інфляції дисперсії перевищує 1, це означає, що мультиколінеарність моделі є високою, і, отже, слід спробувати її вирішити.

На практиці коефіцієнти інфляції дисперсії зазвичай розраховуються за допомогою комп’ютерного програмного забезпечення, оскільки створення регресійної моделі для кожної змінної та подальше визначення значення коефіцієнта вручну займе багато часу.

Правильна мультиколінеарність

Наступні заходи можуть бути корисними для вирішення проблем мультиколінеарності в регресійній моделі:

  • Якщо розмір вибірки невеликий, збільшення кількості даних може зменшити приблизну мультиколінеарність.
  • Видаліть усі змінні, які створюють мультиколінеарність. Якщо змінні сильно корельовані, у моделі буде втрачено мало інформації, а мультиколінеарність зменшиться.
  • Створіть модель регресії, застосувавши критерій часткових найменших квадратів (PLS).
  • Іноді можна залишити модель регресії як є, з мультиколінеарністю. Наприклад, якщо ми просто хочемо створити модель для прогнозування, і нам не потрібно її інтерпретувати, ми можемо використати рівняння моделі для прогнозування значення залежної змінної за допомогою нового спостереження, припускаючи, що модель мультиколінеарності повторюється в нових спостереженнях.

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *