Что такое ловушка фиктивной переменной? (определение & #038; пример)


Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .

Обычно мы используем линейную регрессию с количественными переменными . Иногда называемые «числовыми» переменными, это переменные, которые представляют собой измеримую величину. Примеры включают в себя:

  • Количество квадратных футов в доме
  • Численность населения города
  • Возраст человека

Однако иногда мы хотим использовать категориальные переменные в качестве переменных-предсказателей. Это переменные, которые принимают имена или метки и могут относиться к категориям. Примеры включают в себя:

  • Цвет глаз (например, «голубой», «зеленый», «карий»)
  • Пол (например, «мужчина», «женщина»)
  • Семейное положение (например, «женат», «холост», «разведен»)

При использовании категориальных переменных не имеет смысла просто присваивать значения типа 1, 2, 3 таким значениям, как «синий», «зеленый» и «коричневый», потому что не имеет смысла говорить этот зеленый цвет двойной. такой же красочный, как синий или коричневый, в три раза красочнее синего.

Вместо этого решение состоит в использовании фиктивных переменных . Это переменные, которые мы создаем специально для регрессионного анализа и которые принимают одно из двух значений: ноль или единицу.

Количество фиктивных переменных, которые нам нужно создать, равно k -1, где k — количество различных значений, которые может принимать категориальная переменная.

Например, предположим, что у нас есть следующий набор данных и мы хотим использовать семейное положение и возраст для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предикторной переменной в регрессионной модели, нам необходимо преобразовать его в фиктивную переменную.

Поскольку на данный момент это категориальная переменная, которая может принимать три разных значения («холост», «женат» или «разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем оставить «Single» в качестве базового значения, поскольку оно встречается чаще всего. Итак, вот как мы преобразуем семейное положение в фиктивные переменные:

Фиктивная переменная с тремя значениями

Затем мы могли бы использовать Возраст , Женат и Разведен в качестве переменных-предсказателей в регрессионной модели.

При создании фиктивных переменных может возникнуть проблема, известная как ловушка фиктивной переменной . Это происходит, когда мы создаем k фиктивных переменных вместо k -1 фиктивных переменных.

Когда это произойдет, по крайней мере две фиктивные переменные будут страдать от идеальной мультиколлинеарности . Другими словами, они будут идеально коррелированы. Это приводит к неверным расчетам коэффициентов регрессии и соответствующих им значений p.

Ловушка фиктивной переменной: когда количество созданных фиктивных переменных равно количеству значений, которые может принимать категориальное значение. Это приводит к мультиколлинеарности, что приводит к неверным расчетам коэффициентов регрессии и p-значений.

Например, предположим, что мы преобразуем семейное положение в следующие фиктивные переменные:

Пример ловушки фиктивной переменной

В этом случае Холостые и Женатые прекрасно коррелируют и имеют коэффициент корреляции -1.

Поэтому, когда мы выполняем множественную линейную регрессию, расчеты коэффициентов регрессии будут неверными.

Как избежать ловушки фиктивной переменной

Вам просто нужно запомнить одно правило, чтобы не попасть в ловушку фиктивных переменных:

Если категориальная переменная может принимать k разных значений, вам следует создать только k-1 фиктивных переменных для использования в модели регрессии.

Например, предположим, что вы хотите преобразовать категориальную переменную «год обучения» в фиктивные переменные. Предположим, что эта переменная принимает следующие значения:

  • Первокурсник
  • Студент второго курса
  • Юниор
  • Старшая

Поскольку эта переменная может принимать 4 разных значения, мы создадим только 3 фиктивные переменные. Например, нашими фиктивными переменными могут быть:

  • X 1 = 1, если студент второго курса; 0 иначе
  • X 2 = 1, если Юниор; 0 иначе
  • Х 3 = 1 тис Сеньор; 0 иначе

Поскольку количество фиктивных переменных на единицу меньше, чем количество значений, которые может принимать «учебный год», мы можем избежать ловушки фиктивных переменных и проблемы мультиколлинеарности.

Дополнительные ресурсы

Как использовать фиктивные переменные в регрессионном анализе
Введение в множественную линейную регрессию
Руководство по мультиколлинеарности в регрессии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *