Como remover duplicatas no sas (com exemplos)


Você pode usar proc sort no SAS para remover rapidamente linhas duplicadas de um conjunto de dados.

Este procedimento usa a seguinte sintaxe básica:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Observe que o argumento by especifica quais colunas verificar ao remover duplicatas.

Os exemplos a seguir mostram como remover duplicatas do seguinte conjunto de dados no SAS:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Exemplo 1: Remova duplicatas de todas as colunas

Podemos usar o código a seguir para remover linhas que possuem valores duplicados em todas as colunas do conjunto de dados:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Observe que um total de cinco linhas duplicadas foram removidas do conjunto de dados original.

Exemplo 2: Remover duplicatas de colunas específicas

Podemos usar o argumento by para especificar quais colunas examinar ao remover duplicatas.

Por exemplo, o código a seguir remove linhas com valores duplicados nas colunas de equipe e posição :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

Apenas quatro linhas permanecem no conjunto de dados após a remoção de linhas com valores duplicados nas colunas de equipe e posição .

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras operações comuns no SAS:

Como normalizar dados no SAS
Como identificar outliers no SAS
Como usar o resumo do procedimento no SAS
Como criar tabelas de frequência no SAS

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *