Що таке пастка фіктивної змінної? (визначення & #038; приклад)


Лінійна регресія – це метод, який ми можемо використати для кількісного визначення зв’язку між однією або декількома змінними предиктора та змінною відповіді .

Зазвичай ми використовуємо лінійну регресію з кількісними змінними . Іноді їх називають «числовими» змінними, це змінні, які представляють величину, яку можна виміряти. Приклади:

  • Кількість квадратних метрів в будинку
  • Чисельність населення міста
  • Вік особини

Однак іноді ми хочемо використовувати категоріальні змінні як змінні-прогнози. Це змінні, які приймають імена або мітки та можуть потрапити в категорії. Приклади:

  • Колір очей (наприклад, «блакитні», «зелені», «карі»)
  • Стать (наприклад, «чоловік», «жінка»)
  • Сімейний стан (наприклад, «одружений», «неодружений», «розлучений»)

Використовуючи категоріальні змінні, немає сенсу просто призначати такі значення, як 1, 2, 3, таким значенням, як «синій», «зелений» і «коричневий», оскільки немає сенсу говорити що зелений подвійний . такий барвистий, як синій чи коричневий, утричі барвистіший за синій.

Замість цього рішення полягає у використанні фіктивних змінних . Це змінні, які ми створюємо спеціально для регресійного аналізу і які приймають одне з двох значень: нуль або одиницю.

Кількість фіктивних змінних, які нам потрібно створити, дорівнює k -1, де k — кількість різних значень, які може приймати категоріальна змінна.

Наприклад, припустімо, що ми маємо такий набір даних і хочемо використовувати сімейний стан і вік для прогнозування доходу :

Щоб використовувати сімейний стан як змінну прогнозу в регресійній моделі, нам потрібно перетворити його на фіктивну змінну.

Оскільки наразі це категоріальна змінна, яка може приймати три різні значення («Одружений», «Одружений» або «Розлучений»), нам потрібно створити k -1 = 3-1 = 2 фіктивні змінні.

Щоб створити цю фіктивну змінну, ми можемо залишити «Single» як базове значення, оскільки воно з’являється найчастіше. Отже, ось як ми перетворимо сімейний стан у фіктивні змінні:

Фіктивна змінна з трьома значеннями

Потім ми могли б використовувати Вік , Одружений і Розлучений як змінні прогнозу в регресійній моделі.

Під час створення фіктивних змінних проблема, яка може виникнути, відома як перехоплення фіктивних змінних . Це відбувається, коли ми створюємо k фіктивних змінних замість k -1 фіктивних змінних.

Коли це станеться, принаймні дві фіктивні змінні страждатимуть від ідеальної мультиколінеарності . Іншими словами, вони будуть ідеально співвіднесені. Це призводить до неправильних розрахунків коефіцієнтів регресії та їхніх відповідних значень p.

Пастка фіктивної змінної: коли кількість створених фіктивних змінних дорівнює числу значень, які може приймати категоріальне значення. Це призводить до мультиколінеарності, що призводить до неправильних розрахунків коефіцієнтів регресії та p-значень.

Наприклад, припустімо, що ми перетворюємо сімейний стан у такі фіктивні змінні:

Приклад пастки фіктивної змінної

У цьому випадку неодружений і одружений ідеально корелюють і мають коефіцієнт кореляції -1.

Отже, коли ми виконуємо множинну лінійну регресію, обчислення коефіцієнта регресії буде неправильним.

Як уникнути пастки фіктивної змінної

Вам просто потрібно запам’ятати одне правило, щоб уникнути пастки фіктивних змінних:

Якщо категоріальна змінна може приймати k різних значень, вам слід створити лише k-1 фіктивних змінних для використання в моделі регресії.

Наприклад, припустімо, що ви хочете перетворити категоріальну змінну «рік навчання» у фіктивні змінні. Припустимо, що ця змінна приймає такі значення:

  • Студент першого курсу
  • Студент другого курсу
  • молодший
  • Старший

Оскільки ця змінна може приймати 4 різні значення, ми створимо лише 3 фіктивні змінні. Наприклад, наші фіктивні змінні можуть бути такими:

  • X 1 = 1, якщо студент другого курсу; 0 інакше
  • X 2 = 1, якщо молодший; 0 інакше
  • Х 3 = 1 тис старший; 0 інакше

Оскільки кількість фіктивних змінних на одиницю менше, ніж кількість значень, які може приймати «навчальний рік», ми можемо уникнути пастки фіктивної змінної та проблеми мультиколінеарності.

Додаткові ресурси

Як використовувати фіктивні змінні в регресійному аналізі
Вступ до множинної лінійної регресії
Керівництво з мультиколінеарності в регресії

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *