Как создать фиктивные переменные в sas (с примером)


Фиктивная переменная — это тип переменной, которую мы создаем в регрессионном анализе, чтобы мы могли представить категориальную переменную как числовую переменную, которая принимает одно из двух значений: ноль или одно.

Например, предположим, что у нас есть следующий набор данных и мы хотим использовать возраст и семейное положение для прогнозирования дохода :

Чтобы использовать семейное положение в качестве предикторной переменной в регрессионной модели, нам необходимо преобразовать его в фиктивную переменную.

Поскольку на данный момент это категориальная переменная, которая может принимать три разных значения («холост», «женат» или «разведен»), нам нужно создать k -1 = 3-1 = 2 фиктивных переменных.

Чтобы создать эту фиктивную переменную, мы можем оставить «Single» в качестве базового значения, поскольку оно встречается чаще всего. Итак, вот как мы преобразуем семейное положение в фиктивные переменные:

В следующем примере показано, как создать фиктивные переменные для этого конкретного набора данных в SAS.

Пример: создание фиктивных переменных в SAS

Сначала давайте создадим следующий набор данных в SAS:

 /*create dataset*/
data original_data;
    input income age status $;
    datalines ;
45 23 single
48 25 single
54 24 single
57 29 single
65 38 married
69 36 single
78 40 married
83 59 divorced
98 56 divorced
104 64 married
107 53 married
;
run ;

/*view dataset*/
proc print data = original_data; 

Далее мы можем использовать два оператора IF-THEN-ELSE для создания фиктивных переменных для переменной состояния :

 /*create new dataset with dummy variables*/
data new_data;
	set original_data;
	if status = " married " then married = 1 ;
	  else married = 0 ;
	if status = " divorced " then divorced = 1 ;
	  else divorced = 0 ;
run ;

/*view new dataset*/
proc print data =new_data;

фиктивные переменные в примере SAS

Обратите внимание, что значения двух фиктивных переменных ( в браке и в разводе ) совпадают со значениями, которые мы рассчитали во вводном примере.

Затем мы могли бы использовать эти фиктивные переменные в регрессионной модели , если бы захотели, поскольку они обе числовые.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в SAS:

Как использовать сводку процедур в SAS
Как использовать Proc Tabulate в SAS
Как переименовать переменные в SAS
Как создать новые переменные в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *