Як видалити дублікати в sas (з прикладами)


Ви можете використовувати процедуру сортування в SAS, щоб швидко видалити повторювані рядки з набору даних.

Ця процедура використовує такий базовий синтаксис:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Зауважте, що аргумент by визначає, які стовпці сканувати під час видалення дублікатів.

У наведених нижче прикладах показано, як видалити дублікати з наступного набору даних у SAS:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Приклад 1: видаліть дублікати з усіх стовпців

Ми можемо використовувати наступний код, щоб видалити рядки, які мають повторювані значення в усіх стовпцях набору даних:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Зверніть увагу, що з вихідного набору даних було видалено загалом п’ять повторюваних рядків.

Приклад 2: видаліть дублікати з певних стовпців

Ми можемо використовувати аргумент by , щоб вказати, які стовпці перевіряти під час видалення дублікатів.

Наприклад, наступний код видаляє рядки з повторюваними значеннями в стовпцях команди та позиції :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

Після видалення рядків із повторюваними значеннями в стовпцях команди та позиції в наборі даних залишиться лише чотири рядки.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові операції в SAS:

Як нормалізувати дані в SAS
Як визначити викиди в SAS
Як використовувати зведення процедур у SAS
Як створити частотні таблиці в SAS

Додати коментар

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *