Что такое ловушка фиктивной переменной? (определение & #038; пример)
Линейная регрессия — это метод, который мы можем использовать для количественной оценки взаимосвязи между одной или несколькими переменными-предикторами и переменной отклика .
Обычно мы используем линейную регрессию с количественными переменными . Иногда называемые «числовыми» переменными, это переменные, которые представляют собой измеримую величину. Примеры включают в себя:
- Количество квадратных футов в доме
- Численность населения города
- Возраст человека
Однако иногда мы хотим использовать категориальные переменные в качестве переменных-предсказателей. Это переменные, которые принимают имена или метки и могут относиться к категориям. Примеры включают в себя:
- Цвет глаз (например, «голубой», «зеленый», «карий»)
- Пол (например, «мужчина», «женщина»)
- Семейное положение (например, «женат», «холост», «разведен»)
При использовании категориальных переменных не имеет смысла просто присваивать значения типа 1, 2, 3 таким значениям, как «синий», «зеленый» и «коричневый», потому что не имеет смысла говорить этот зеленый цвет двойной. такой же красочный, как синий или коричневый, в три раза красочнее синего.
Вместо этого решение состоит в использовании фиктивных переменных . Это переменные, которые мы создаем специально для регрессионного анализа и которые принимают одно из двух значений: ноль или единицу.
Количество фиктивных переменных, которые нам нужно создать, равно k -1, где k — количество различных значений, которые может принимать категориальная переменная.
Например, предположим, что у нас есть следующий набор данных и мы хотим использовать семейное положение и возраст для прогнозирования дохода :
Чтобы использовать семейное положение в качестве предикторной переменной в регрессионной модели, нам необходимо преобразовать его в фиктивную переменную.
Поскольку на данный момент это категориальная переменная, которая может принимать три разных значения («холост», «женат» или «разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.
Чтобы создать эту фиктивную переменную, мы можем оставить «Single» в качестве базового значения, поскольку оно встречается чаще всего. Итак, вот как мы преобразуем семейное положение в фиктивные переменные:
Затем мы могли бы использовать Возраст , Женат и Разведен в качестве переменных-предсказателей в регрессионной модели.
При создании фиктивных переменных может возникнуть проблема, известная как ловушка фиктивной переменной . Это происходит, когда мы создаем k фиктивных переменных вместо k -1 фиктивных переменных.
Когда это произойдет, по крайней мере две фиктивные переменные будут страдать от идеальной мультиколлинеарности . Другими словами, они будут идеально коррелированы. Это приводит к неверным расчетам коэффициентов регрессии и соответствующих им значений p.
Ловушка фиктивной переменной: когда количество созданных фиктивных переменных равно количеству значений, которые может принимать категориальное значение. Это приводит к мультиколлинеарности, что приводит к неверным расчетам коэффициентов регрессии и p-значений.
Например, предположим, что мы преобразуем семейное положение в следующие фиктивные переменные:
В этом случае Холостые и Женатые прекрасно коррелируют и имеют коэффициент корреляции -1.
Поэтому, когда мы выполняем множественную линейную регрессию, расчеты коэффициентов регрессии будут неверными.
Как избежать ловушки фиктивной переменной
Вам просто нужно запомнить одно правило, чтобы не попасть в ловушку фиктивных переменных:
Если категориальная переменная может принимать k разных значений, вам следует создать только k-1 фиктивных переменных для использования в модели регрессии.
Например, предположим, что вы хотите преобразовать категориальную переменную «год обучения» в фиктивные переменные. Предположим, что эта переменная принимает следующие значения:
- Первокурсник
- Студент второго курса
- Юниор
- Старшая
Поскольку эта переменная может принимать 4 разных значения, мы создадим только 3 фиктивные переменные. Например, нашими фиктивными переменными могут быть:
- X 1 = 1, если студент второго курса; 0 иначе
- X 2 = 1, если Юниор; 0 иначе
- Х 3 = 1 тис Сеньор; 0 иначе
Поскольку количество фиктивных переменных на единицу меньше, чем количество значений, которые может принимать «учебный год», мы можем избежать ловушки фиктивных переменных и проблемы мультиколлинеарности.
Дополнительные ресурсы
Как использовать фиктивные переменные в регрессионном анализе
Введение в множественную линейную регрессию
Руководство по мультиколлинеарности в регрессии