Как удалить дубликаты в sas (с примерами)
Вы можете использовать сортировку процедур в SAS, чтобы быстро удалить повторяющиеся строки из набора данных.
В этой процедуре используется следующий базовый синтаксис:
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;
Обратите внимание, что аргумент by указывает, какие столбцы следует сканировать при удалении дубликатов.
В следующих примерах показано, как удалить дубликаты из следующего набора данных в SAS:
/*create dataset*/
data original_data;
input team $position $points;
datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;
/*view dataset*/
proc print data = original_data;
Пример 1. Удаление дубликатов из всех столбцов
Мы можем использовать следующий код для удаления строк с повторяющимися значениями во всех столбцах набора данных:
/*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run ;
/*view dataset with no duplicate rows*/
proc print data =no_dups_data;
Обратите внимание, что из исходного набора данных было удалено всего пять повторяющихся строк.
Пример 2. Удаление дубликатов из определенных столбцов
Мы можем использовать аргумент by , чтобы указать, какие столбцы следует проверять при удалении дубликатов.
Например, следующий код удаляет строки с повторяющимися значениями в столбцах команды и позиции :
/*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
by team position;
run ;
/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data;
В наборе данных остаются только четыре строки после удаления строк с повторяющимися значениями в столбцах команды и позиции .
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:
Как нормализовать данные в SAS
Как выявить выбросы в SAS
Как использовать сводку процедур в SAS
Как создать таблицы частот в SAS