Sas で proc compare を使用する方法 (例付き)
SAS でPROC COMPARE を使用すると、2 つのデータセット間の類似点と相違点をすばやく特定できます。
この手順では、次の基本構文を使用します。
proc compare base =data1 compare =data2; run ;
次の例は、この手順を実際に使用する方法を示しています。
例: SAS での Proc Compare の使用
SAS に次の 2 つのデータセットがあると仮定します。
/*create datasets*/
data data1;
input team $pointsrebounds;
datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;
data data2;
input team $points;
datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;
/*view datasets*/
proc print data =data1;
proc print data =data2;
次のPROC COMPAREステートメントを使用すると、2 つのデータ セット間の類似点と相違点を見つけることができます。
/*compare the two datasets*/
proc compare
base =data1
compare =data2;
run ;
これにより、出力に 3 つのテーブルが生成されます。
表 1: 2 つの表の要約
最初の表には、次のような各データセットの簡単な概要が示されています。
1.各データセット内の変数 (NVar) と観測値 (NObs) の数。
- Data1 には 3 つの変数と 5 つの観測値があります
- Data2 には 2 つの変数と 5 つの観測値があります
2. 2 つのデータセット間の共通変数の数。
- Data1 と Data2 には 2 つの共通の変数があります (チームとポイント)
表 2: 値の違いの数の概要
2 番目の表は、2 つの表間の値の違いの数をまとめたものです。
この出力の最も興味深い部分は、変数間の違いの概要が示されている表の最後にあります。
- チーム変数には、異なる値を持つ 3 つの観測値があります。
- 点変数には、異なる値を持つ 3 つの観測値があります。最大差は9です。
表 3: 観測値間の実際の差異
3 番目の表は、2 つのデータセットの観測値間の実際の違いを示しています。
最初の表は、2 つのデータセット間のチーム変数の違いを示しています。
- たとえば、data1 では、チームの 3 番目の観測値はCの値を持ち、data2 では、3 番目の観測値はFの値を持ちます。
2 番目の表は、2 つのデータセット間の点変数の違いを示しています。
- たとえば、data1 では 3 番目の観測値のポイントの値は18ですが、data2 では 3 番目の観測値は27です。 2 つの値の差は9です。
これら 3 つのテーブルにより、2 つのデータ セットの違いを完全に理解できます。
特定の変数について 2 つのデータセット間の差異のみを比較したい場合は、次の構文を使用できることに注意してください。
/*compare the differences between the datasets only for 'points' variable*/
proc compare
base =data1
compare =data2;
var points;
run ;
これにより、前と同じ 3 つのテーブルが生成されますが、 points変数の出力のみが表示されます。
注: PROC COMPARE の完全なドキュメントはここにあります。
追加リソース
次のチュートリアルでは、SAS で他の一般的なタスクを実行する方法について説明します。
SAS での手順の概要の使用方法
SAS で Proc Tabulate を使用する方法
SAS で Proc 照合を使用する方法