Jak usunąć duplikaty w sas-ie (z przykładami)


Możesz użyć sortowania proc w SAS-ie, aby szybko usunąć zduplikowane wiersze ze zbioru danych.

W tej procedurze zastosowano następującą podstawową składnię:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Należy pamiętać, że argument by określa, które kolumny mają być skanowane podczas usuwania duplikatów.

Poniższe przykłady pokazują, jak usunąć duplikaty z następującego zbioru danych w SAS-ie:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Przykład 1: Usuń duplikaty ze wszystkich kolumn

Możemy użyć poniższego kodu, aby usunąć wiersze, które mają zduplikowane wartości we wszystkich kolumnach w zbiorze danych:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Należy zauważyć, że z oryginalnego zbioru danych usunięto łącznie pięć zduplikowanych wierszy.

Przykład 2: Usuń duplikaty z określonych kolumn

Możemy użyć argumentu by , aby określić, które kolumny mają być sprawdzane podczas usuwania duplikatów.

Przykładowo poniższy kod usuwa wiersze ze zduplikowanymi wartościami w kolumnach zespół i pozycja :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

Po usunięciu wierszy ze zduplikowanymi wartościami w kolumnach zespołu i pozycji w zbiorze danych pozostają tylko cztery wiersze.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe operacje w SAS-ie:

Jak normalizować dane w SAS-ie
Jak zidentyfikować wartości odstające w SAS
Jak korzystać ze podsumowania procedur w SAS-ie
Jak tworzyć tabele częstości w SAS-ie

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *