Comment créer des variables factices dans SAS (avec exemple)
Une variable factice est un type de variable que nous créons dans l’analyse de régression afin de pouvoir représenter une variable catégorielle comme une variable numérique qui prend l’une des deux valeurs suivantes : zéro ou un.
Par exemple, supposons que nous disposions de l’ensemble de données suivant et que nous souhaitions utiliser l’âge et l’état civil pour prédire le revenu :
Pour utiliser l’état civil comme variable prédictive dans un modèle de régression, nous devons le convertir en variable muette.
Puisqu’il s’agit actuellement d’une variable catégorielle qui peut prendre trois valeurs différentes (« Célibataire », « Marié » ou « Divorcé »), nous devons créer k -1 = 3-1 = 2 variables muettes.
Pour créer cette variable factice, nous pouvons laisser « Single » comme valeur de base car elle apparaît le plus souvent. Ainsi, voici comment nous convertirions l’état civil en variables fictives :
L’exemple suivant montre comment créer des variables factices pour cet ensemble de données exact dans SAS.
Exemple : création de variables factices dans SAS
Tout d’abord, créons l’ensemble de données suivant dans SAS :
/*create dataset*/ data original_data; input income age status $; datalines; 45 23 single 48 25 single 54 24 single 57 29 single 65 38 married 69 36 single 78 40 married 83 59 divorced 98 56 divorced 104 64 married 107 53 married ; run; /*view dataset*/ proc print data=original_data;
Ensuite, nous pouvons utiliser deux instructions IF-THEN-ELSE pour créer des variables factices pour la variable d’état :
/*create new dataset with dummy variables*/
data new_data;
set original_data;
if status = "married" then married = 1;
else married = 0;
if status = "divorced" then divorced = 1;
else divorced = 0;
run;
/*view new dataset*/
proc print data=new_data;
Notez que les valeurs des deux variables fictives ( marié et divorcé ) correspondent aux valeurs que nous avons calculées dans l’exemple d’introduction.
Nous pourrions ensuite utiliser ces variables fictives dans un modèle de régression si nous le souhaitons, car elles sont toutes deux numériques.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :
Comment utiliser le résumé de procédure dans SAS
Comment utiliser Proc Tabulate dans SAS
Comment renommer des variables dans SAS
Comment créer de nouvelles variables dans SAS