Comparaison de grep() et grepl() dans R : quelle est la différence ?



Deux fonctions que les gens confondent souvent dans R sont grep() et grepl() . Les deux fonctions vous permettent de voir si un certain modèle existe dans une chaîne de caractères, mais elles renvoient des résultats différents :

  • grepl() renvoie TRUE lorsqu’un modèle existe dans une chaîne de caractères.
  • grep() renvoie un vecteur d’indices des chaînes de caractères contenant le modèle.

L’exemple suivant illustre cette différence :

#create a vector of data
data <- c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center')

grep('Guard', data)
[1] 1 2

grepl('Guard', data) 
[1]  TRUE  TRUE FALSE FALSE FALSE

Les exemples suivants montrent quand vous souhaiterez peut-être utiliser l’une de ces fonctions plutôt que l’autre.

Quand utiliser grepl()

1. Filtrer les lignes contenant une certaine chaîne

L’une des utilisations les plus courantes de grepl() consiste à filtrer les lignes d’un bloc de données contenant une certaine chaîne :

library(dplyr)

#create data frame
df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'),
                 points = c(12, 15, 19, 22, 32),
                 rebounds = c(5, 7, 7, 12, 11))

#filter rows that contain the string 'Guard' in the player column
df %>% filter(grepl('Guard', player))

   player points rebounds
1 P Guard     12        5
2 S Guard     15        7

Connexe : Comment filtrer les lignes contenant une certaine chaîne à l’aide de dplyr

Quand utiliser grep()

1. Sélectionnez les colonnes qui contiennent une certaine chaîne

Vous pouvez utiliser grep() pour sélectionner des colonnes dans un bloc de données contenant une certaine chaîne :

library(dplyr)

#create data frame
df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'),
                 points = c(12, 15, 19, 22, 32),
                 rebounds = c(5, 7, 7, 12, 11))

#select columns that contain the string 'p' in their name
df %>% select(grep('p', colnames(df)))

     player points
1   P Guard     12
2   S Guard     15
3 S Forward     19
4 P Forward     22
5    Center     32

2. Comptez le nombre de lignes contenant une certaine chaîne

Vous pouvez utiliser grep() pour compter le nombre de lignes dans un bloc de données contenant une certaine chaîne :

#create data frame
df <- data.frame(player = c('P Guard', 'S Guard', 'S Forward', 'P Forward', 'Center'),
                 points = c(12, 15, 19, 22, 32),
                 rebounds = c(5, 7, 7, 12, 11))

#count how many rows contain the string 'Guard' in the player column
length(grep('Guard', df$player))

[1] 2

Vous pouvez trouver plus de didacticiels R ici .

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *