Как создать фиктивные переменные в excel (шаг за шагом)
Фиктивная переменная — это тип переменной, которую мы создаем в регрессионном анализе, чтобы мы могли представить категориальную переменную как числовую переменную, которая принимает одно из двух значений: ноль или одно.
Например, предположим, что у нас есть следующий набор данных и мы хотим использовать возраст и семейное положение для прогнозирования дохода :
Чтобы использовать семейное положение в качестве предикторной переменной в регрессионной модели, нам необходимо преобразовать его в фиктивную переменную.
Поскольку на данный момент это категориальная переменная, которая может принимать три разных значения («холост», «женат» или «разведен»), нам необходимо создать k -1 = 3-1 = 2 фиктивных переменных.
Чтобы создать эту фиктивную переменную, мы можем оставить «Single» в качестве базового значения, поскольку оно встречается чаще всего. Вот как мы могли бы преобразовать семейное положение в фиктивные переменные:
В этом руководстве представлен пошаговый пример того, как создать фиктивные переменные для этого конкретного набора данных в Excel, а затем выполнить регрессионный анализ, используя эти фиктивные переменные в качестве предикторов.
Шаг 1. Создайте данные
Сначала давайте создадим набор данных в Excel:
Шаг 2. Создайте фиктивные переменные
Далее мы можем скопировать значения из столбцов A и B в столбцы E и F, а затем использовать функцию ЕСЛИ() в Excel, чтобы определить две новые фиктивные переменные: «Женат» и «Разведен».
Вот формула, которую мы использовали в ячейке G2 , которую мы скопировали в остальные ячейки столбца G:
= IF (C2 = "Married", 1, 0)
А вот формула, которую мы использовали в ячейке H2 , которую мы скопировали в остальные ячейки столбца H:
= IF (C2 = "Divorced", 1, 0)
Затем мы можем использовать эти фиктивные переменные в регрессионной модели для прогнозирования дохода.
Шаг 3. Выполните линейную регрессию
Чтобы выполнить множественную линейную регрессию, нам нужно щелкнуть вкладку «Данные» на верхней ленте, затем нажать «Анализ данных» в разделе «Анализ» :
Если эта опция недоступна, необходимо сначала загрузить Analysis Toolpak .
В появившемся окне нажмите «Регрессия» , а затем нажмите «ОК» .
Затем заполните следующую информацию и нажмите «ОК» .
Это дает следующий результат:
Из результата мы видим, что подобранная линия регрессии имеет вид:
Доход = 14 276,12 + 1 471,67*(возраст) + 2 479,75*(женат) – 8 397,40*(разведен)
Мы можем использовать это уравнение, чтобы найти расчетный доход человека в зависимости от его возраста и семейного положения. Например, человек в возрасте 35 лет, женатый, будет иметь расчетный доход в размере 68 264 долларов США :
Доход = 14 276,12 + 1 471,67*(35) + 2 479,75*(1) – 8 397,40*(0) = 68 264 долларов США.
Вот как интерпретировать коэффициенты регрессии в таблице:
- Перехват: Перехват представляет собой средний доход одного человека в возрасте нулевого возраста. Поскольку человеку не может быть нулевого возраста, нет смысла интерпретировать перехват сам по себе в этой конкретной регрессионной модели.
- Возраст: каждый год увеличения возраста связан со средним увеличением дохода на 1471,67 доллара. Поскольку значение p (0,004) меньше 0,05, возраст является статистически значимым предиктором дохода.
- Женатый: женатый человек зарабатывает в среднем на 2479,75 доллара больше, чем одинокий. Поскольку значение p (0,800) составляет не менее 0,05, эта разница не является статистически значимой.
- Разведен: Разведенный человек зарабатывает в среднем на 8 397,40 доллара меньше, чем одинокий человек. Поскольку значение p (0,532) составляет не менее 0,05, эта разница не является статистически значимой.
Поскольку обе фиктивные переменные не были статистически значимыми, мы могли бы исключить семейное положение как предиктор из модели, поскольку оно, похоже, не увеличивает прогностическую ценность дохода.
Дополнительные ресурсы
Как выполнить простую линейную регрессию в Excel
Как посчитать остаточную сумму квадратов в Excel
Как выполнить полиномиальную регрессию в Excel
Как создать остаточный график в Excel