Comment utiliser la fonction setdiff dans R (avec exemples)



La fonction setdiff() dans R peut être utilisée pour trouver les différences entre deux ensembles. Cette fonction utilise la syntaxe suivante :

setdiff(x, y)

où:

  • x, y : vecteurs ou trames de données contenant une séquence d’éléments

Ce tutoriel fournit plusieurs exemples d’utilisation pratique de cette fonction.

Exemple 1 : Setdiff avec des vecteurs numériques

Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs du vecteur a qui n’apparaissent pas dans le vecteur b :

#define vectors
a <- c(1, 3, 4, 5, 9, 10)
b <- c(1, 2, 3, 4, 5, 6)

#find all values in a that do not occur in b
setdiff(a, b)

[1]  9 10

Il existe deux valeurs apparaissant dans le vecteur a qui n’apparaissent pas dans le vecteur b : 9 et 10 .

Si nous inversons l’ordre des vecteurs dans la fonction setdiff() , nous pouvons à la place identifier toutes les valeurs du vecteur b qui n’apparaissent pas dans le vecteur a :

#find all values in b that do not occur in a
setdiff(b, a)

[1] 2 6

Il existe deux valeurs apparaissant dans le vecteur b qui n’apparaissent pas dans le vecteur a : 2 et 6 .

Exemple 2 : Setdiff avec des vecteurs de caractères

Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs du vecteur char1 qui n’apparaissent pas dans le vecteur char2 :

#define character vectors
char1 <- c('A', 'B', 'C', 'D', 'E')
char2 <- c('A', 'B', 'E', 'F', 'G')

#find all values in char1 that do not occur in char2
setdiff(char1, char2)

[1] "C" "D"

Exemple 3 : Setdiff avec des trames de données

Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs d’une colonne de bloc de données qui n’apparaissent pas dans la même colonne d’un deuxième bloc de données :

#define data frames
df1 <- data.frame(team=c('A', 'B', 'C', 'D'),
                 conference=c('West', 'West', 'East', 'East'),
                 points=c(88, 97, 94, 104))

df2 <- data.frame(team=c('A', 'B', 'C', 'D'),
                 conference=c('West', 'West', 'East', 'East'),
                 points=c(88, 97, 98, 99))

#find differences between the points columns in the two data frames
setdiff(df1$points, df2$points)

[1]  94 104

Nous pouvons voir que les valeurs 94 et 104 apparaissent dans la colonne de points de la première trame de données, mais pas dans la colonne de points de la deuxième trame de données.

Ressources additionnelles

Comment additionner des colonnes spécifiques dans R
Comment additionner des lignes spécifiques dans R
Comment effectuer une correspondance de chaîne partielle dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *