Как удалить дубликаты в sas (с примерами)


Вы можете использовать сортировку процедур в SAS, чтобы быстро удалить повторяющиеся строки из набора данных.

В этой процедуре используется следующий базовый синтаксис:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Обратите внимание, что аргумент by указывает, какие столбцы следует сканировать при удалении дубликатов.

В следующих примерах показано, как удалить дубликаты из следующего набора данных в SAS:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Пример 1. Удаление дубликатов из всех столбцов

Мы можем использовать следующий код для удаления строк с повторяющимися значениями во всех столбцах набора данных:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Обратите внимание, что из исходного набора данных было удалено всего пять повторяющихся строк.

Пример 2. Удаление дубликатов из определенных столбцов

Мы можем использовать аргумент by , чтобы указать, какие столбцы следует проверять при удалении дубликатов.

Например, следующий код удаляет строки с повторяющимися значениями в столбцах команды и позиции :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

В наборе данных остаются только четыре строки после удаления строк с повторяющимися значениями в столбцах команды и позиции .

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные операции в SAS:

Как нормализовать данные в SAS
Как выявить выбросы в SAS
Как использовать сводку процедур в SAS
Как создать таблицы частот в SAS

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *