R : Comment utiliser grepl avec plusieurs modèles



Vous pouvez utiliser la syntaxe de base suivante avec la fonction grepl() dans R pour filtrer les lignes d’un bloc de données contenant l’un des nombreux modèles de chaîne dans une colonne spécifique :

library(dplyr)

new_df <- filter(df, grepl(paste(my_patterns, collapse='|'), my_column))

Cette syntaxe particulière filtre le bloc de données pour les lignes où la valeur de la colonne appelée my_column contient l’un des modèles de chaîne du vecteur appelé my_patterns .

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : comment utiliser grepl() avec plusieurs modèles dans R

Supposons que nous ayons le bloc de données suivant dans R qui contient des informations sur diverses équipes de basket-ball :

#create data frame
df <- data.frame(team=c('Mavs', 'Hawks', 'Nets', 'Heat', 'Cavs'),
                 points=c(104, 115, 124, 120, 112),
                 status=c('Bad', 'Good', 'Excellent', 'Great', 'Bad'))

#view data frame
df

   team points    status
1  Mavs    104       Bad
2 Hawks    115      Good
3  Nets    124 Excellent
4  Heat    120     Great
5  Cavs    112       Bad

Supposons que nous souhaitions filtrer le bloc de données pour qu’il contienne uniquement les lignes où la chaîne de la colonne d’état contient l’un des modèles de chaîne suivants :

  • ‘Bien’
  • ‘Gré’
  • ‘Ex’

Nous pouvons utiliser la syntaxe suivante avec la fonction grepl() pour ce faire :

library(dplyr)

#define patterns to search for
my_patterns <- c('Good', 'Gre', 'Ex')

#filter for rows where status column contains one of several strings
new_df <- filter(df, grepl(paste(my_patterns, collapse='|'), status))

#view results
new_df

   team points    status
1 Hawks    115      Good
2  Nets    124 Excellent
3  Heat    120     Great

Notez que le bloc de données a été filtré pour contenir uniquement les lignes où la chaîne dans la colonne d’état contient l’un des trois modèles que nous avons spécifiés.

Notez qu’en utilisant la fonction Paste() avec l’argument Collaps=’|’ nous avons en fait recherché la chaîne « Good|Gre|Ex » dans la colonne d’état .

Depuis le | Le symbole dans R signifie « OU », nous avons pu rechercher les lignes contenant « Bon » ou Gre » ou « Ex » dans la colonne d’état .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment muter une variable si la colonne contient une chaîne à l’aide de dplyr
Comment supprimer le premier caractère des chaînes à l’aide de dplyr
Comment remplacer une chaîne dans une colonne à l’aide de dplyr

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *