SAS : Comment utiliser (in=a) dans l’instruction de fusion



Lors de la fusion de deux ensembles de données dans SAS, vous pouvez utiliser l’instruction IN pour renvoyer uniquement les lignes où une valeur existe dans un ensemble de données particulier.

Voici quelques façons courantes d’utiliser l’instruction IN dans la pratique :

Méthode 1 : renvoyer les lignes où la valeur existe dans le premier ensemble de données (in = a)

data final_data;
  merge data1 (in=a) data2;
  by ID;
  if a;
run;

Cet exemple particulier fusionne les ensembles de données appelés data1 et data2 et renvoie uniquement les lignes où une valeur existe dans data1 .

Méthode 2 : renvoyer les lignes où la valeur existe dans le deuxième ensemble de données (in = b)

data final_data;
  merge data1 data2 (in=b);
  by ID;
  if b;
run;

Cet exemple particulier fusionne les ensembles de données appelés data1 et data2 et renvoie uniquement les lignes pour lesquelles une valeur existe dans data2 .

Méthode 3 : renvoyer les lignes où la valeur existe dans les deux ensembles de données (in = a) et (in = b)

data final_data;
  merge data1 (in = a) data2 (in=b);
  by ID;
  if a and b;
run;

Cet exemple particulier fusionne les ensembles de données appelés data1 et data2 et renvoie uniquement les lignes où une valeur existe à la fois dans data1 et data2 .

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec les deux ensembles de données suivants :

/*create first dataset*/
data data1;
    input ID Gender $;
    datalines;
1 Male
2 Male
3 Female
4 Male
5 Female
;
run;

title "data1";
proc print data = data1;

/*create second dataset*/
data data2;
    input ID Sales;
    datalines;
1 22
2 15
4 29
6 31
7 20
8 13
;
run;

title "data2";
proc print data = data2;

Exemple 1 : renvoyer toutes les lignes

Nous pouvons utiliser l’instruction de fusion suivante sans aucune instruction IN pour fusionner les deux ensembles de données en fonction de la valeur de la colonne ID et renvoyer toutes les lignes des deux ensembles de données :

/*perform merge*/
data final_data;
  merge data1 data2;
  by ID;
run;

/*view results*/
title "final_data";
proc print data=final_data;

Notez que toutes les lignes des deux ensembles de données sont renvoyées, même s’il manque des valeurs en raison d’une valeur d’ID n’existant pas dans les deux ensembles de données.

Exemple 2 : renvoyer les lignes où la valeur existe dans le premier ensemble de données (in = a)

Nous pouvons utiliser l’instruction de fusion suivante avec (in = a) pour fusionner les deux ensembles de données en fonction de la valeur dans la colonne ID et renvoyer uniquement les lignes où une valeur existe dans le premier ensemble de données :

/*perform merge*/
data final_data;
  merge data1 (in = a) data2;
  by ID;
  if a;
run;

/*view results*/
title "final_data";
proc print data=final_data;

Notez que seules les lignes pour lesquelles une valeur existe dans le premier ensemble de données sont renvoyées.

Exemple 3 : renvoyer les lignes où la valeur existe dans le deuxième ensemble de données (in = b)

Nous pouvons utiliser l’instruction de fusion suivante avec (in = b) pour fusionner les deux ensembles de données en fonction de la valeur dans la colonne ID et renvoyer uniquement les lignes où une valeur existe dans le deuxième ensemble de données :

/*perform merge*/
data final_data;
  merge data1 data2 (in = b);
  by ID;
  if b;
run;

/*view results*/
title "final_data";
proc print data=final_data;

Notez que seules les lignes pour lesquelles une valeur existe dans le deuxième ensemble de données sont renvoyées.

Exemple 4 : renvoyer les lignes où la valeur existe dans les deux ensembles de données (in = a) et (in = b)

Nous pouvons utiliser l’instruction de fusion suivante avec (in = a) et (in = b) pour fusionner les deux ensembles de données en fonction de la valeur dans la colonne ID et renvoyer uniquement les lignes où une valeur existe dans les deux ensembles de données :

/*perform merge*/
data final_data;
  merge data1 (in = a) data2 (in = b);
  by ID;
  if a and b;
run;

/*view results*/
title "final_data";
proc print data=final_data;

Notez que seules les lignes pour lesquelles une valeur existe dans les deux ensembles de données sont renvoyées.

Remarque : Vous pouvez trouver la documentation complète de l’instruction de fusion SAS ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :

Comment effectuer une jointure à gauche dans SAS
Comment effectuer une jointure interne dans SAS
Comment effectuer une jointure externe dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *