Comment utiliser Proc Compare dans SAS (avec exemples)



Vous pouvez utiliser PROC COMPARE dans SAS pour identifier rapidement les similitudes et les différences entre deux ensembles de données.

Cette procédure utilise la syntaxe de base suivante :

proc compare
    base=data1
    compare=data2;
run;

L’exemple suivant montre comment utiliser cette procédure dans la pratique.

Exemple : utilisation de Proc Compare dans SAS

Supposons que nous ayons les deux ensembles de données suivants dans SAS :

/*create datasets*/
data data1;
    input team $ points rebounds;
    datalines;
A 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run;

data data2;
    input team $ points;
    datalines;
A 25
B 18
F 27
G 21
H 20
;
run;

/*view datasets*/
proc print data=data1;
proc print data=data2;

Nous pouvons utiliser l’instruction PROC COMPARE suivante pour trouver les similitudes et les différences entre les deux ensembles de données :

/*compare the two datasets*/
proc compare
    base=data1
    compare=data2;
run;

Cela produira trois tableaux dans la sortie :

Tableau 1 : Un résumé des deux tableaux

Le premier tableau présente un bref résumé de chaque ensemble de données, notamment :

1. Le nombre de variables (NVar) et d’observations (NObs) dans chaque ensemble de données.

  • Data1 a 3 variables et 5 observations
  • Data2 a 2 variables et 5 observations

2. Le nombre de variables communes entre les deux ensembles de données.

  • Data1 et Data2 ont 2 variables en commun (équipe et points)

Tableau 2 : Un résumé du nombre de différences de valeurs

Le deuxième tableau résume le nombre de différences de valeurs entre les deux tableaux.

La partie la plus intéressante de cette sortie se situe à la fin du tableau où l’on peut voir un résumé des différences entre les variables :

  • La variable équipe a 3 observations avec des valeurs différentes.
  • Les variables de points ont 3 observations avec des valeurs différentes. La différence maximale est de 9.

Tableau 3 : Les différences réelles entre les observations

Le troisième tableau montre les différences réelles entre les observations dans les deux ensembles de données.

Le premier tableau montre les différences de variable d’équipe entre les deux ensembles de données.

  • Par exemple, dans data1, la troisième observation a une valeur de C pour team tandis que dans data2, la troisième observation a une valeur de F .

Le deuxième tableau montre les différences dans les variables de points entre les deux ensembles de données.

  • Par exemple, dans data1 la troisième observation a une valeur de 18 pour les points tandis que dans data2 la troisième observation a une valeur de 27 . La différence entre les deux valeurs est de 9 .

Ces trois tableaux nous donnent une compréhension complète des différences entre les deux ensembles de données.

Notez que si vous souhaitez comparer uniquement les différences entre les deux ensembles de données pour une variable spécifique, vous pouvez utiliser la syntaxe suivante :

/*compare the differences between the datasets only for 'points' variable*/
proc compare
    base=data1
    compare=data2;
    var points;
run;

Cela produira les trois mêmes tableaux que précédemment, mais seule la sortie de la variable points sera affichée.

Remarque : Vous pouvez trouver la documentation complète de PROC COMPARE ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans SAS :

Comment utiliser le résumé de procédure dans SAS
Comment utiliser Proc Tabulate dans SAS
Comment utiliser le classement Proc dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *