Como remover duplicatas no sas (com exemplos)
Você pode usar proc sort no SAS para remover rapidamente linhas duplicadas de um conjunto de dados.
Este procedimento usa a seguinte sintaxe básica:
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;
Observe que o argumento by especifica quais colunas verificar ao remover duplicatas.
Os exemplos a seguir mostram como remover duplicatas do seguinte conjunto de dados no SAS:
/*create dataset*/
data original_data;
input team $position $points;
datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;
/*view dataset*/
proc print data = original_data;
Exemplo 1: Remova duplicatas de todas as colunas
Podemos usar o código a seguir para remover linhas que possuem valores duplicados em todas as colunas do conjunto de dados:
/*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run ;
/*view dataset with no duplicate rows*/
proc print data =no_dups_data;
Observe que um total de cinco linhas duplicadas foram removidas do conjunto de dados original.
Exemplo 2: Remover duplicatas de colunas específicas
Podemos usar o argumento by para especificar quais colunas examinar ao remover duplicatas.
Por exemplo, o código a seguir remove linhas com valores duplicados nas colunas de equipe e posição :
/*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
by team position;
run ;
/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data;
Apenas quatro linhas permanecem no conjunto de dados após a remoção de linhas com valores duplicados nas colunas de equipe e posição .
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras operações comuns no SAS:
Como normalizar dados no SAS
Como identificar outliers no SAS
Como usar o resumo do procedimento no SAS
Como criar tabelas de frequência no SAS