Sas에서 proc compare를 사용하는 방법(예제 포함)


SAS에서 PROC COMPARE를 사용하면 두 데이터 세트 간의 유사점과 차이점을 빠르게 식별할 수 있습니다.

이 절차에서는 다음 기본 구문을 사용합니다.

 proc compare
    base =data1
    compare =data2;
run ;

다음 예에서는 이 절차를 실제로 사용하는 방법을 보여줍니다.

예: SAS에서 Proc Compare 사용

SAS에 다음과 같은 두 가지 데이터 세트가 있다고 가정해 보겠습니다.

 /*create datasets*/
data data1;
    input team $pointsrebounds;
    datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;

data data2;
    input team $points;
    datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;

/*view datasets*/
proc print data =data1;
proc print data =data2; 

다음 PROC COMPARE 문을 사용하여 두 데이터 세트 간의 유사점과 차이점을 찾을 수 있습니다.

 /*compare the two datasets*/
proc compare
    base =data1
    compare =data2;
run ;

그러면 출력에 세 개의 테이블이 생성됩니다.

표 1: 두 테이블의 요약

첫 번째 표는 다음을 포함하여 각 데이터 세트에 대한 간략한 요약을 제공합니다.

1. 각 데이터 세트의 변수(NVar) 및 관측치(NObs) 수.

  • Data1에는 3개의 변수와 5개의 관측치가 있습니다.
  • Data2에는 변수 2개와 관측값 5개가 있습니다.

2. 두 데이터 세트 사이의 공통 변수의 수.

  • Data1과 Data2에는 2개의 변수가 공통적으로 있습니다(팀 및 포인트).

표 2: 값 차이 개수 요약

두 번째 표에는 두 표 사이의 값 차이 개수가 요약되어 있습니다.

이 출력에서 가장 흥미로운 부분은 변수 간의 차이점에 대한 요약을 볼 수 있는 표 끝부분입니다.

  • 변수에는 서로 다른 값을 갖는 3개의 관측치가 있습니다.
  • 변수에는 서로 다른 값을 갖는 3개의 관측치가 있습니다. 최대 차이는 9입니다.

표 3: 관측치 간의 실제 차이

세 번째 표는 두 데이터 세트의 관측치 간의 실제 차이를 보여줍니다.

첫 번째 테이블은 두 데이터 세트 간의 변수 차이점을 보여줍니다.

  • 예를 들어, data1에서 세 번째 관측값은 팀에 대한 C 값을 갖는 반면, data2에서 세 번째 관측값은 F 값을 갖습니다.

두 번째 표는 두 데이터 세트 간의 변수 차이를 보여줍니다.

  • 예를 들어, data1에서 세 번째 관찰값은 점에 대해 18 값을 갖는 반면, data2에서는 세 번째 관찰값은 27 입니다. 두 값의 차이는 9 입니다.

이 세 가지 표를 통해 두 데이터 세트 간의 차이점을 완벽하게 이해할 수 있습니다.

특정 변수에 대한 두 데이터 세트 간의 차이점만 비교하려면 다음 구문을 사용할 수 있습니다.

 /*compare the differences between the datasets only for 'points' variable*/
proc compare
    base =data1
    compare =data2;
var points;
run ;

그러면 이전과 동일한 세 개의 테이블이 생성되지만 포인트 변수의 출력만 표시됩니다.

참고 : 여기에서 전체 PROC COMPARE 문서를 찾을 수 있습니다.

추가 리소스

다음 튜토리얼에서는 SAS에서 다른 일반적인 작업을 수행하는 방법을 설명합니다.

SAS에서 절차 요약을 사용하는 방법
SAS에서 Proc Tabulate를 사용하는 방법
SAS에서 Proc 대조를 사용하는 방법

의견을 추가하다

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다