Sas에서 proc compare를 사용하는 방법(예제 포함)
SAS에서 PROC COMPARE를 사용하면 두 데이터 세트 간의 유사점과 차이점을 빠르게 식별할 수 있습니다.
이 절차에서는 다음 기본 구문을 사용합니다.
proc compare base =data1 compare =data2; run ;
다음 예에서는 이 절차를 실제로 사용하는 방법을 보여줍니다.
예: SAS에서 Proc Compare 사용
SAS에 다음과 같은 두 가지 데이터 세트가 있다고 가정해 보겠습니다.
/*create datasets*/
data data1;
input team $pointsrebounds;
datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;
data data2;
input team $points;
datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;
/*view datasets*/
proc print data =data1;
proc print data =data2;
다음 PROC COMPARE 문을 사용하여 두 데이터 세트 간의 유사점과 차이점을 찾을 수 있습니다.
/*compare the two datasets*/
proc compare
base =data1
compare =data2;
run ;
그러면 출력에 세 개의 테이블이 생성됩니다.
표 1: 두 테이블의 요약
첫 번째 표는 다음을 포함하여 각 데이터 세트에 대한 간략한 요약을 제공합니다.
1. 각 데이터 세트의 변수(NVar) 및 관측치(NObs) 수.
- Data1에는 3개의 변수와 5개의 관측치가 있습니다.
- Data2에는 변수 2개와 관측값 5개가 있습니다.
2. 두 데이터 세트 사이의 공통 변수의 수.
- Data1과 Data2에는 2개의 변수가 공통적으로 있습니다(팀 및 포인트).
표 2: 값 차이 개수 요약
두 번째 표에는 두 표 사이의 값 차이 개수가 요약되어 있습니다.
이 출력에서 가장 흥미로운 부분은 변수 간의 차이점에 대한 요약을 볼 수 있는 표 끝부분입니다.
- 팀 변수에는 서로 다른 값을 갖는 3개의 관측치가 있습니다.
- 점 변수에는 서로 다른 값을 갖는 3개의 관측치가 있습니다. 최대 차이는 9입니다.
표 3: 관측치 간의 실제 차이
세 번째 표는 두 데이터 세트의 관측치 간의 실제 차이를 보여줍니다.
첫 번째 테이블은 두 데이터 세트 간의 팀 변수 차이점을 보여줍니다.
- 예를 들어, data1에서 세 번째 관측값은 팀에 대한 C 값을 갖는 반면, data2에서 세 번째 관측값은 F 값을 갖습니다.
두 번째 표는 두 데이터 세트 간의 점 변수 차이를 보여줍니다.
- 예를 들어, data1에서 세 번째 관찰값은 점에 대해 18 값을 갖는 반면, data2에서는 세 번째 관찰값은 27 입니다. 두 값의 차이는 9 입니다.
이 세 가지 표를 통해 두 데이터 세트 간의 차이점을 완벽하게 이해할 수 있습니다.
특정 변수에 대한 두 데이터 세트 간의 차이점만 비교하려면 다음 구문을 사용할 수 있습니다.
/*compare the differences between the datasets only for 'points' variable*/
proc compare
base =data1
compare =data2;
var points;
run ;
그러면 이전과 동일한 세 개의 테이블이 생성되지만 포인트 변수의 출력만 표시됩니다.
참고 : 여기에서 전체 PROC COMPARE 문서를 찾을 수 있습니다.
추가 리소스
다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.
SAS에서 절차 요약을 사용하는 방법
SAS에서 Proc Tabulate를 사용하는 방법
SAS에서 Proc 대조를 사용하는 방법