Comment compter les doublons dans R : avec des exemples



Vous pouvez utiliser les méthodes suivantes pour compter les doublons dans un bloc de données dans R :

Méthode 1 : compter les valeurs en double dans une colonne

sum(duplicated(df$my_column))

Méthode 2 : compter les lignes en double

nrow(df[duplicated(df), ])

Méthode 3 : compter les doublons pour chaque ligne unique

library(dplyr)

df %>% group_by_all() %>% count

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant dans R :

#create data frame
df = data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1    A        G      5
2    A        G      5
3    A        G      8
4    A        F     10
5    B        G      5
6    B        G      7
7    B        F     10
8    B        F     10

Exemple 1 : Compter les valeurs en double dans une colonne

Le code suivant montre comment compter le nombre de valeurs en double dans la colonne de points :

#count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Nous pouvons voir qu’il y a 4 valeurs en double dans la colonne des points .

Exemple 2 : Compter les lignes en double

Le code suivant montre comment compter le nombre de lignes en double dans le bloc de données :

#count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Nous pouvons voir qu’il y a 2 lignes en double dans le bloc de données.

Nous pouvons utiliser la syntaxe suivante pour afficher ces 2 lignes en double :

#display duplicated rows
df[duplicated(df), ]

  team position points
2    A        G      5
8    B        F     10

Exemple 3 : compter les doublons pour chaque ligne unique

Le code suivant montre comment compter le nombre de doublons pour chaque ligne unique du bloc de données :

library(dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups:   team, position, points [6]
  team  position points     n
         
1 A     F            10     1
2 A     G             5     2
3 A     G             8     1
4 B     F            10     2
5 B     G             5     1
6 B     G             7     1

La colonne n affiche le nombre de doublons pour chaque ligne unique.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment rechercher des éléments en double à l’aide de dplyr
Comment supprimer les lignes en double dans R
Comment supprimer les lignes en double dans R pour qu’il n’en reste plus aucune

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *