Jak usunąć duplikaty w sas-ie (z przykładami)
Możesz użyć sortowania proc w SAS-ie, aby szybko usunąć zduplikowane wiersze ze zbioru danych.
W tej procedurze zastosowano następującą podstawową składnię:
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;
Należy pamiętać, że argument by określa, które kolumny mają być skanowane podczas usuwania duplikatów.
Poniższe przykłady pokazują, jak usunąć duplikaty z następującego zbioru danych w SAS-ie:
/*create dataset*/
data original_data;
input team $position $points;
datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;
/*view dataset*/
proc print data = original_data;
Przykład 1: Usuń duplikaty ze wszystkich kolumn
Możemy użyć poniższego kodu, aby usunąć wiersze, które mają zduplikowane wartości we wszystkich kolumnach w zbiorze danych:
/*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run ;
/*view dataset with no duplicate rows*/
proc print data =no_dups_data;
Należy zauważyć, że z oryginalnego zbioru danych usunięto łącznie pięć zduplikowanych wierszy.
Przykład 2: Usuń duplikaty z określonych kolumn
Możemy użyć argumentu by , aby określić, które kolumny mają być sprawdzane podczas usuwania duplikatów.
Przykładowo poniższy kod usuwa wiersze ze zduplikowanymi wartościami w kolumnach zespół i pozycja :
/*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
by team position;
run ;
/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data;
Po usunięciu wierszy ze zduplikowanymi wartościami w kolumnach zespołu i pozycji w zbiorze danych pozostają tylko cztery wiersze.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje w SAS-ie:
Jak normalizować dane w SAS-ie
Jak zidentyfikować wartości odstające w SAS
Jak korzystać ze podsumowania procedur w SAS-ie
Jak tworzyć tabele częstości w SAS-ie