Comment utiliser la fonction setdiff dans R (avec exemples)
La fonction setdiff() dans R peut être utilisée pour trouver les différences entre deux ensembles. Cette fonction utilise la syntaxe suivante :
setdiff(x, y)
où:
- x, y : vecteurs ou trames de données contenant une séquence d’éléments
Ce tutoriel fournit plusieurs exemples d’utilisation pratique de cette fonction.
Exemple 1 : Setdiff avec des vecteurs numériques
Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs du vecteur a qui n’apparaissent pas dans le vecteur b :
#define vectors a <- c(1, 3, 4, 5, 9, 10) b <- c(1, 2, 3, 4, 5, 6) #find all values in a that do not occur in b setdiff(a, b) [1] 9 10
Il existe deux valeurs apparaissant dans le vecteur a qui n’apparaissent pas dans le vecteur b : 9 et 10 .
Si nous inversons l’ordre des vecteurs dans la fonction setdiff() , nous pouvons à la place identifier toutes les valeurs du vecteur b qui n’apparaissent pas dans le vecteur a :
#find all values in b that do not occur in a setdiff(b, a) [1] 2 6
Il existe deux valeurs apparaissant dans le vecteur b qui n’apparaissent pas dans le vecteur a : 2 et 6 .
Exemple 2 : Setdiff avec des vecteurs de caractères
Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs du vecteur char1 qui n’apparaissent pas dans le vecteur char2 :
#define character vectors char1 <- c('A', 'B', 'C', 'D', 'E') char2 <- c('A', 'B', 'E', 'F', 'G') #find all values in char1 that do not occur in char2 setdiff(char1, char2) [1] "C" "D"
Exemple 3 : Setdiff avec des trames de données
Le code suivant montre comment utiliser setdiff() pour identifier toutes les valeurs d’une colonne de bloc de données qui n’apparaissent pas dans la même colonne d’un deuxième bloc de données :
#define data frames df1 <- data.frame(team=c('A', 'B', 'C', 'D'), conference=c('West', 'West', 'East', 'East'), points=c(88, 97, 94, 104)) df2 <- data.frame(team=c('A', 'B', 'C', 'D'), conference=c('West', 'West', 'East', 'East'), points=c(88, 97, 98, 99)) #find differences between the points columns in the two data frames setdiff(df1$points, df2$points) [1] 94 104
Nous pouvons voir que les valeurs 94 et 104 apparaissent dans la colonne de points de la première trame de données, mais pas dans la colonne de points de la deuxième trame de données.
Ressources additionnelles
Comment additionner des colonnes spécifiques dans R
Comment additionner des lignes spécifiques dans R
Comment effectuer une correspondance de chaîne partielle dans R