Comparaison de grep() et grepl() dans R : quelle est la différence ?
Deux fonctions que les gens confondent souvent dans R sont grep() et grepl() . Les deux fonctions vous permettent de voir si un certain modèle existe dans une chaîne de caractères, mais elles renvoient des résultats différents :
- grepl() renvoie TRUE lorsqu’un modèle existe dans une chaîne de caractères.
- grep() renvoie un vecteur d’indices des chaînes de caractères contenant le modèle.
L’exemple suivant illustre cette différence :
#create a vector of data data <- c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center') grep('Guard', data) [1] 1 2 grepl('Guard', data) [1] TRUE TRUE FALSE FALSE FALSE
Les exemples suivants montrent quand vous souhaiterez peut-être utiliser l’une de ces fonctions plutôt que l’autre.
Quand utiliser grepl()
1. Filtrer les lignes contenant une certaine chaîne
L’une des utilisations les plus courantes de grepl() consiste à filtrer les lignes d’un bloc de données contenant une certaine chaîne :
library(dplyr) #create data frame df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'), points = c(12, 15, 19, 22, 32), rebounds = c(5, 7, 7, 12, 11)) #filter rows that contain the string 'Guard' in the player column df %>% filter(grepl('Guard', player)) player points rebounds 1 P Guard 12 5 2 S Guard 15 7
Connexe : Comment filtrer les lignes contenant une certaine chaîne à l’aide de dplyr
Quand utiliser grep()
1. Sélectionnez les colonnes qui contiennent une certaine chaîne
Vous pouvez utiliser grep() pour sélectionner des colonnes dans un bloc de données contenant une certaine chaîne :
library(dplyr) #create data frame df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'), points = c(12, 15, 19, 22, 32), rebounds = c(5, 7, 7, 12, 11)) #select columns that contain the string 'p' in their name df %>% select(grep('p', colnames(df))) player points 1 P Guard 12 2 S Guard 15 3 S Forward 19 4 P Forward 22 5 Center 32
2. Comptez le nombre de lignes contenant une certaine chaîne
Vous pouvez utiliser grep() pour compter le nombre de lignes dans un bloc de données contenant une certaine chaîne :
#create data frame df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'), points = c(12, 15, 19, 22, 32), rebounds = c(5, 7, 7, 12, 11)) #count how many rows contain the string 'Guard' in the player column length(grep('Guard', df$player)) [1] 2
Vous pouvez trouver plus de didacticiels R ici .