Personnaliser les préférences

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez ci-dessous des informations détaillées sur tous les cookies sous chaque catégorie de consentement.

Les cookies classés comme « Nécessaires » sont stockés sur votre navigateur car ils sont essentiels pour activer les fonctionnalités de base du site.... 

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Aucun cookie à afficher.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Aucun cookie à afficher.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Aucun cookie à afficher.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Aucun cookie à afficher.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

Aucun cookie à afficher.

Comment supprimer les doublons dans SAS (avec exemples)



Vous pouvez utiliser le tri proc dans SAS pour supprimer rapidement les lignes en double d’un ensemble de données.

Cette procédure utilise la syntaxe de base suivante :

proc sort data=original_data out=no_dups_data nodupkey;
    by _all_;
run;

Notez que l’argument by spécifie les colonnes à analyser lors de la suppression des doublons.

Les exemples suivants montrent comment supprimer les doublons de l’ensemble de données suivant dans SAS :

/*create dataset*/
data original_data;
    input team $ position $ points;
    datalines;
A Guard 12
A Guard 20
A Guard 20
A Guard 24
A Forward 15
A Forward 15
A Forward 19
A Forward 28
B Guard 10
B Guard 12
B Guard 12
B Guard 26
B Forward 10
B Forward 10
B Forward 10
B Forward 19
;
run;

/*view dataset*/
proc print data=original_data;

Exemple 1 : supprimer les doublons de toutes les colonnes

Nous pouvons utiliser le code suivant pour supprimer les lignes qui ont des valeurs en double dans toutes les colonnes de l’ensemble de données :

/*create dataset with no duplicate rows*/
proc sort data=original_data out=no_dups_data nodupkey;
    by _all_;
run;

/*view dataset with no duplicate rows*/
proc print data=no_dups_data;

Notez qu’un total de cinq lignes en double ont été supprimées de l’ensemble de données d’origine.

Exemple 2 : supprimer les doublons de colonnes spécifiques

Nous pouvons utiliser l’argument by pour spécifier les colonnes à examiner lors de la suppression des doublons.

Par exemple, le code suivant supprime les lignes comportant des valeurs en double dans les colonnes d’équipe et de poste :

/*create dataset with no duplicate rows in team and position columns*/
proc sort data=original_data out=no_dups_data nodupkey;
    by team position;
run;

/*view dataset with no duplicate rows in team and position columns*/
proc print data=no_dups_data;

Seules quatre lignes restent dans l’ensemble de données après suppression des lignes comportant des valeurs en double dans les colonnes d’équipe et de position .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans SAS :

Comment normaliser les données dans SAS
Comment identifier les valeurs aberrantes dans SAS
Comment utiliser le résumé de procédure dans SAS
Comment créer des tableaux de fréquences dans SAS

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *