Sas で proc compare を使用する方法 (例付き)


SAS でPROC COMPARE を使用すると、2 つのデータセット間の類似点と相違点をすばやく特定できます。

この手順では、次の基本構文を使用します。

 proc compare
    base =data1
    compare =data2;
run ;

次の例は、この手順を実際に使用する方法を示しています。

例: SAS での Proc Compare の使用

SAS に次の 2 つのデータセットがあると仮定します。

 /*create datasets*/
data data1;
    input team $pointsrebounds;
    datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;

data data2;
    input team $points;
    datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;

/*view datasets*/
proc print data =data1;
proc print data =data2; 

次のPROC COMPAREステートメントを使用すると、2 つのデータ セット間の類似点と相違点を見つけることができます。

 /*compare the two datasets*/
proc compare
    base =data1
    compare =data2;
run ;

これにより、出力に 3 つのテーブルが生成されます。

表 1: 2 つの表の要約

最初の表には、次のような各データセットの簡単な概要が示されています。

1.各データセット内の変数 (NVar) と観測値 (NObs) の数。

  • Data1 には 3 つの変数と 5 つの観測値があります
  • Data2 には 2 つの変数と 5 つの観測値があります

2. 2 つのデータセット間の共通変数の数。

  • Data1 と Data2 には 2 つの共通の変数があります (チームとポイント)

表 2: 値の違いの数の概要

2 番目の表は、2 つの表間の値の違いの数をまとめたものです。

この出力の最も興味深い部分は、変数間の違いの概要が示されている表の最後にあります。

  • チーム変数には、異なる値を持つ 3 つの観測値があります。
  • 変数には、異なる値を持つ 3 つの観測値があります。最大差は9です。

表 3: 観測値間の実際の差異

3 番目の表は、2 つのデータセットの観測値間の実際の違いを示しています。

最初の表は、2 つのデータセット間のチーム変数の違いを示しています。

  • たとえば、data1 では、チームの 3 番目の観測値はCの値を持ち、data2 では、3 番目の観測値はFの値を持ちます。

2 番目の表は、2 つのデータセット間の変数の違いを示しています。

  • たとえば、data1 では 3 番目の観測値のポイントの値は18ですが、data2 では 3 番目の観測値は27です。 2 つの値の差は9です。

これら 3 つのテーブルにより、2 つのデータ セットの違いを完全に理解できます。

特定の変数について 2 つのデータセット間の差異のみを比較したい場合は、次の構文を使用できることに注意してください。

 /*compare the differences between the datasets only for 'points' variable*/
proc compare
    base =data1
    compare =data2;
var points;
run ;

これにより、前と同じ 3 つのテーブルが生成されますが、 points変数の出力のみが表示されます。

: PROC COMPARE の完全なドキュメントはここにあります。

追加リソース

次のチュートリアルでは、SAS で他の一般的なタスクを実行する方法について説明します。

SAS での手順の概要の使用方法
SAS で Proc Tabulate を使用する方法
SAS で Proc 照合を使用する方法

コメントを追加する

メールアドレスが公開されることはありません。 が付いている欄は必須項目です