Jak korzystać z proc compare w sas-ie (z przykładami)
Możesz użyć PROC COMPARE w SAS-ie, aby szybko zidentyfikować podobieństwa i różnice między dwoma zbiorami danych.
W tej procedurze zastosowano następującą podstawową składnię:
proc compare base =data1 compare =data2; run ;
Poniższy przykład pokazuje, jak zastosować tę procedurę w praktyce.
Przykład: użycie Proc Compare w SAS-ie
Załóżmy, że mamy w SAS-ie następujące dwa zestawy danych:
/*create datasets*/
data data1;
input team $pointsrebounds;
datalines ;
At 25 10
B 18 4
C 18 7
D 24 12
E 27 11
;
run ;
data data2;
input team $points;
datalines ;
At 25
B 18
F 27
G21
H 20
;
run ;
/*view datasets*/
proc print data =data1;
proc print data =data2;
Aby znaleźć podobieństwa i różnice między dwoma zbiorami danych, możemy użyć następującej instrukcji PROC COMPARE :
/*compare the two datasets*/
proc compare
base =data1
compare =data2;
run ;
Spowoduje to wygenerowanie trzech tabel w wynikach:
Tabela 1: Podsumowanie dwóch tabel
Pierwsza tabela zawiera krótkie podsumowanie każdego zestawu danych, w tym:
1. Liczba zmiennych (NVar) i obserwacji (NObs) w każdym zbiorze danych.
- Dane 1 mają 3 zmienne i 5 obserwacji
- Dane2 mają 2 zmienne i 5 obserwacji
2. Liczba wspólnych zmiennych pomiędzy dwoma zbiorami danych.
- Dane1 i Dane2 mają 2 wspólne zmienne (zespół i punkty)
Tabela 2: Podsumowanie liczby różnic wartości
Druga tabela podsumowuje liczbę różnic wartości między obiema tabelami.
Najciekawsza część tego wyniku znajduje się na końcu tabeli, gdzie możemy zobaczyć podsumowanie różnic między zmiennymi:
- Zmienna zespołu ma 3 obserwacje o różnych wartościach.
- Zmienne punktowe mają 3 obserwacje o różnych wartościach. Maksymalna różnica wynosi 9.
Tabela 3: Rzeczywiste różnice pomiędzy obserwacjami
Trzecia tabela pokazuje rzeczywiste różnice między obserwacjami w obu zbiorach danych.
Pierwsza tabela pokazuje różnice w zmiennych zespołowych między dwoma zbiorami danych.
- Na przykład w danych 1 trzecia obserwacja ma wartość C dla zespołu, podczas gdy w danych 2 trzecia obserwacja ma wartość F.
Druga tabela pokazuje różnice w zmiennych punktowych pomiędzy dwoma zbiorami danych.
- Na przykład w danych 1 trzecia obserwacja ma wartość 18 punktów, podczas gdy w danych 2 trzecia obserwacja ma wartość 27 . Różnica między tymi dwiema wartościami wynosi 9 .
Te trzy tabele pozwalają nam w pełni zrozumieć różnice między tymi dwoma zbiorami danych.
Pamiętaj, że jeśli chcesz porównać tylko różnice między dwoma zbiorami danych dla konkretnej zmiennej, możesz zastosować następującą składnię:
/*compare the differences between the datasets only for 'points' variable*/
proc compare
base =data1
compare =data2;
var points;
run ;
Spowoduje to utworzenie tych samych trzech tabel, co poprzednio, ale zostaną wyświetlone tylko dane wyjściowe zmiennej punktów .
Uwaga : Pełną dokumentację PROC COMPARE można znaleźć tutaj .
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w SAS-ie:
Jak korzystać ze podsumowania procedur w SAS-ie
Jak używać Proc Tabulate w SAS-ie
Jak korzystać z sortowania Proc w SAS-ie