Comment filtrer les valeurs uniques à l’aide de dplyr



Vous pouvez utiliser les méthodes suivantes pour filtrer les valeurs uniques dans un bloc de données dans R à l’aide du package dplyr :

Méthode 1 : filtrer les valeurs uniques dans une colonne

df %>% distinct(var1)

Méthode 2 : filtrer les valeurs uniques dans plusieurs colonnes

df %>% distinct(var1, var2)

Méthode 3 : filtrer les valeurs uniques dans toutes les colonnes

df %>% distinct()

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant dans R :

#create data frame
df <- data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                 points=c(10, 10, 8, 6, 15, 15, 12, 12),
                 rebounds=c(8, 8, 4, 3, 10, 11, 7, 7))

#view data frame
df

  team points rebounds
1    A     10        8
2    A     10        8
3    A      8        4
4    A      6        3
5    B     15       10
6    B     15       11
7    B     12        7
8    B     12        7

Exemple 1 : Filtrer les valeurs uniques dans la colonne

Nous pouvons utiliser le code suivant pour filtrer les valeurs uniques uniquement dans la colonne d’équipe :

library(dplyr)

#select only unique values in team column
df %>% distinct(team)

  team
1    A
2    B

Notez que seules les valeurs uniques de la colonne équipe sont renvoyées.

Exemple 2 : Filtrer les valeurs uniques dans plusieurs colonnes

Nous pouvons utiliser le code suivant pour filtrer les valeurs uniques dans les colonnes équipe et points :

library(dplyr)

#select unique values in team and points columns
df %>% distinct(team, points)

  team points
1    A     10
2    A      8
3    A      6
4    B     15
5    B     12

Notez que seules les valeurs uniques des colonnes équipe et points sont renvoyées.

Exemple 3 : Filtrer les valeurs uniques dans toutes les colonnes

Nous pouvons utiliser le code suivant pour filtrer les valeurs uniques dans toutes les colonnes du bloc de données :

library(dplyr)

#select unique values across all columns
df %>% distinct()

  team points rebounds
1    A     10        8
2    A      8        4
3    A      6        3
4    B     15       10
5    B     15       11
6    B     12        7

Notez que les valeurs uniques des trois colonnes sont renvoyées.

Remarque : Vous pouvez trouver la documentation complète de la fonction distincte dans dplyr ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans dplyr :

Comment sélectionner des colonnes par index à l’aide de dplyr
Comment sélectionner la première ligne par groupe à l’aide de dplyr
Comment filtrer selon plusieurs conditions à l’aide de dplyr
Comment filtrer les lignes contenant une certaine chaîne à l’aide de dplyr

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *