Jak korzystać z proc compare w sas-ie (z przykładami)


Możesz użyć PROC COMPARE w SAS-ie, aby szybko zidentyfikować podobieństwa i różnice między dwoma zbiorami danych.

W tej procedurze zastosowano następującą podstawową składnię:

 proc compare
    base =data1
    compare =data2;
run ;

Poniższy przykład pokazuje, jak zastosować tę procedurę w praktyce.

Przykład: użycie Proc Compare w SAS-ie

Załóżmy, że mamy w SAS-ie następujące dwa zestawy danych:

 /*create datasets*/
data data1;
    input team $pointsrebounds;
    datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;

data data2;
    input team $points;
    datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;

/*view datasets*/
proc print data =data1;
proc print data =data2; 

Aby znaleźć podobieństwa i różnice między dwoma zbiorami danych, możemy użyć następującej instrukcji PROC COMPARE :

 /*compare the two datasets*/
proc compare
    base =data1
    compare =data2;
run ;

Spowoduje to wygenerowanie trzech tabel w wynikach:

Tabela 1: Podsumowanie dwóch tabel

Pierwsza tabela zawiera krótkie podsumowanie każdego zestawu danych, w tym:

1. Liczba zmiennych (NVar) i obserwacji (NObs) w każdym zbiorze danych.

  • Dane 1 mają 3 zmienne i 5 obserwacji
  • Dane2 mają 2 zmienne i 5 obserwacji

2. Liczba wspólnych zmiennych pomiędzy dwoma zbiorami danych.

  • Dane1 i Dane2 mają 2 wspólne zmienne (zespół i punkty)

Tabela 2: Podsumowanie liczby różnic wartości

Druga tabela podsumowuje liczbę różnic wartości między obiema tabelami.

Najciekawsza część tego wyniku znajduje się na końcu tabeli, gdzie możemy zobaczyć podsumowanie różnic między zmiennymi:

  • Zmienna zespołu ma 3 obserwacje o różnych wartościach.
  • Zmienne punktowe mają 3 obserwacje o różnych wartościach. Maksymalna różnica wynosi 9.

Tabela 3: Rzeczywiste różnice pomiędzy obserwacjami

Trzecia tabela pokazuje rzeczywiste różnice między obserwacjami w obu zbiorach danych.

Pierwsza tabela pokazuje różnice w zmiennych zespołowych między dwoma zbiorami danych.

  • Na przykład w danych 1 trzecia obserwacja ma wartość C dla zespołu, podczas gdy w danych 2 trzecia obserwacja ma wartość F.

Druga tabela pokazuje różnice w zmiennych punktowych pomiędzy dwoma zbiorami danych.

  • Na przykład w danych 1 trzecia obserwacja ma wartość 18 punktów, podczas gdy w danych 2 trzecia obserwacja ma wartość 27 . Różnica między tymi dwiema wartościami wynosi 9 .

Te trzy tabele pozwalają nam w pełni zrozumieć różnice między tymi dwoma zbiorami danych.

Pamiętaj, że jeśli chcesz porównać tylko różnice między dwoma zbiorami danych dla konkretnej zmiennej, możesz zastosować następującą składnię:

 /*compare the differences between the datasets only for 'points' variable*/
proc compare
    base =data1
    compare =data2;
var points;
run ;

Spowoduje to utworzenie tych samych trzech tabel, co poprzednio, ale zostaną wyświetlone tylko dane wyjściowe zmiennej punktów .

Uwaga : Pełną dokumentację PROC COMPARE można znaleźć tutaj .

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:

Jak korzystać ze podsumowania procedur w SAS-ie
Jak używać Proc Tabulate w SAS-ie
Jak korzystać z sortowania Proc w SAS-ie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *