Come rimuovere i duplicati in sas (con esempi)
È possibile utilizzare l’ordinamento proc in SAS per rimuovere rapidamente le righe duplicate da un set di dati.
Questa procedura utilizza la seguente sintassi di base:
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;
Tieni presente che l’argomento by specifica quali colonne analizzare durante la rimozione dei duplicati.
I seguenti esempi mostrano come rimuovere i duplicati dal seguente set di dati in SAS:
/*create dataset*/
data original_data;
input team $position $points;
datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;
/*view dataset*/
proc print data = original_data;
Esempio 1: rimuovi i duplicati da tutte le colonne
Possiamo utilizzare il seguente codice per rimuovere le righe che hanno valori duplicati in tutte le colonne del set di dati:
/*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run ;
/*view dataset with no duplicate rows*/
proc print data =no_dups_data;
Tieni presente che dal set di dati originale sono state rimosse un totale di cinque righe duplicate.
Esempio 2: rimuovi i duplicati da colonne specifiche
Possiamo usare l’argomento by per specificare quali colonne esaminare durante la rimozione dei duplicati.
Ad esempio, il codice seguente rimuove le righe con valori duplicati nelle colonne squadra e posizione :
/*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
by team position;
run ;
/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data;
Rimangono solo quattro righe nel set di dati dopo aver rimosso le righe con valori duplicati nelle colonne squadra e posizione .
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni in SAS:
Come normalizzare i dati in SAS
Come identificare i valori anomali in SAS
Come utilizzare il riepilogo della procedura in SAS
Come creare tabelle di frequenza in SAS