Comment compter les doublons dans R : avec des exemples
Vous pouvez utiliser les méthodes suivantes pour compter les doublons dans un bloc de données dans R :
Méthode 1 : compter les valeurs en double dans une colonne
sum(duplicated(df$my_column))
Méthode 2 : compter les lignes en double
nrow(df[duplicated(df), ])
Méthode 3 : compter les doublons pour chaque ligne unique
library(dplyr)
df %>% group_by_all() %>% count
Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant dans R :
#create data frame
df = data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 A G 5
2 A G 5
3 A G 8
4 A F 10
5 B G 5
6 B G 7
7 B F 10
8 B F 10
Exemple 1 : Compter les valeurs en double dans une colonne
Le code suivant montre comment compter le nombre de valeurs en double dans la colonne de points :
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
Nous pouvons voir qu’il y a 4 valeurs en double dans la colonne des points .
Exemple 2 : Compter les lignes en double
Le code suivant montre comment compter le nombre de lignes en double dans le bloc de données :
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
Nous pouvons voir qu’il y a 2 lignes en double dans le bloc de données.
Nous pouvons utiliser la syntaxe suivante pour afficher ces 2 lignes en double :
#display duplicated rows
df[duplicated(df), ]
team position points
2 A G 5
8 B F 10
Exemple 3 : compter les doublons pour chaque ligne unique
Le code suivant montre comment compter le nombre de doublons pour chaque ligne unique du bloc de données :
library(dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 A F 10 1
2 A G 5 2
3 A G 8 1
4 B F 10 2
5 B G 5 1
6 B G 7 1
La colonne n affiche le nombre de doublons pour chaque ligne unique.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :
Comment rechercher des éléments en double à l’aide de dplyr
Comment supprimer les lignes en double dans R
Comment supprimer les lignes en double dans R pour qu’il n’en reste plus aucune