Duplicaten verwijderen in sas (met voorbeelden)


U kunt proc sort in SAS gebruiken om snel dubbele rijen uit een gegevensset te verwijderen.

Deze procedure gebruikt de volgende basissyntaxis:

 proc sort data =original_data out =no_dups_data nodupkey ;
by _all_;
run;

Houd er rekening mee dat het by- argument aangeeft welke kolommen moeten worden gescand bij het verwijderen van duplicaten.

De volgende voorbeelden laten zien hoe u duplicaten verwijdert uit de volgende gegevensset in SAS:

 /*create dataset*/
data original_data;
    input team $position $points;
    datalines ;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run ;

/*view dataset*/
proc print data = original_data; 

Voorbeeld 1: Verwijder duplicaten uit alle kolommen

We kunnen de volgende code gebruiken om rijen te verwijderen die dubbele waarden hebben in alle kolommen in de dataset:

 /*create dataset with no duplicate rows*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by _all_;
run ;

/*view dataset with no duplicate rows*/
proc print data =no_dups_data; 

Houd er rekening mee dat er in totaal vijf dubbele rijen uit de oorspronkelijke gegevensset zijn verwijderd.

Voorbeeld 2: Verwijder duplicaten uit specifieke kolommen

We kunnen het argument by gebruiken om op te geven welke kolommen moeten worden onderzocht bij het verwijderen van duplicaten.

De volgende code verwijdert bijvoorbeeld rijen met dubbele waarden in de team- en positiekolommen :

 /*create dataset with no duplicate rows in team and position columns*/
proc sort data =original_data out =no_dups_data nodupkey ;
    by team position;
run ;

/*view dataset with no duplicate rows in team and position columns*/
proc print data =no_dups_data; 

Er blijven slechts vier rijen over in de dataset na het verwijderen van rijen met dubbele waarden in de team- en positiekolommen .

Aanvullende bronnen

In de volgende zelfstudies wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in SAS uitvoert:

Gegevens normaliseren in SAS
Hoe uitschieters in SAS te identificeren
Procedureoverzicht gebruiken in SAS
Hoe frequentietabellen in SAS te maken

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert