So entfernen sie duplikate in sas (mit beispielen)


Sie können Proc Sort in SAS verwenden, um doppelte Zeilen schnell aus einem Datensatz zu entfernen.

Dieses Verfahren verwendet die folgende grundlegende Syntax:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Beachten Sie, dass das by- Argument angibt, welche Spalten beim Entfernen von Duplikaten gescannt werden sollen.

Die folgenden Beispiele zeigen, wie Sie Duplikate aus dem folgenden Datensatz in SAS entfernen:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Beispiel 1: Duplikate aus allen Spalten entfernen

Mit dem folgenden Code können wir Zeilen entfernen, die in allen Spalten des Datensatzes doppelte Werte enthalten:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Beachten Sie, dass insgesamt fünf doppelte Zeilen aus dem Originaldatensatz entfernt wurden.

Beispiel 2: Duplikate aus bestimmten Spalten entfernen

Mit dem Argument by können wir angeben, welche Spalten beim Entfernen von Duplikaten untersucht werden sollen.

Der folgende Code entfernt beispielsweise Zeilen mit doppelten Werten in den Team- und Positionsspalten :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

Nach dem Entfernen von Zeilen mit doppelten Werten in den Team- und Positionsspalten verbleiben nur noch vier Zeilen im Datensatz.

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie Sie andere häufige Vorgänge in SAS ausführen:

So normalisieren Sie Daten in SAS
So identifizieren Sie Ausreißer in SAS
So verwenden Sie die Verfahrenszusammenfassung in SAS
So erstellen Sie Häufigkeitstabellen in SAS

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert