Comment créer des variables factices dans SAS (avec exemple)



Une variable factice est un type de variable que nous créons dans l’analyse de régression afin de pouvoir représenter une variable catégorielle comme une variable numérique qui prend l’une des deux valeurs suivantes : zéro ou un.

Par exemple, supposons que nous disposions de l’ensemble de données suivant et que nous souhaitions utiliser l’âge et l’état civil pour prédire le revenu :

Pour utiliser l’état civil comme variable prédictive dans un modèle de régression, nous devons le convertir en variable muette.

Puisqu’il s’agit actuellement d’une variable catégorielle qui peut prendre trois valeurs différentes (« Célibataire », « Marié » ou « Divorcé »), nous devons créer k -1 = 3-1 = 2 variables muettes.

Pour créer cette variable factice, nous pouvons laisser « Single » comme valeur de base car elle apparaît le plus souvent. Ainsi, voici comment nous convertirions l’état civil en variables fictives :

L’exemple suivant montre comment créer des variables factices pour cet ensemble de données exact dans SAS.

Exemple : création de variables factices dans SAS

Tout d’abord, créons l’ensemble de données suivant dans SAS :

/*create dataset*/
data original_data;
    input income age status $;
    datalines;
45 23 single
48 25 single
54 24 single
57 29 single
65 38 married
69 36 single
78 40 married
83 59 divorced
98 56 divorced
104 64 married
107 53 married
;
run;

/*view dataset*/
proc print data=original_data;

Ensuite, nous pouvons utiliser deux instructions IF-THEN-ELSE pour créer des variables factices pour la variable d’état :

/*create new dataset with dummy variables*/
data new_data;
	set original_data;
	if status = "married" then married = 1;
	  else married = 0;
	if status = "divorced" then divorced = 1;
	  else divorced = 0;
run;

/*view new dataset*/
proc print data=new_data;

variables factices dans l'exemple SAS

Notez que les valeurs des deux variables fictives ( marié et divorcé ) correspondent aux valeurs que nous avons calculées dans l’exemple d’introduction.

Nous pourrions ensuite utiliser ces variables fictives dans un modèle de régression si nous le souhaitons, car elles sont toutes deux numériques.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :

Comment utiliser le résumé de procédure dans SAS
Comment utiliser Proc Tabulate dans SAS
Comment renommer des variables dans SAS
Comment créer de nouvelles variables dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *