Comment compter les valeurs uniques par groupe dans R (avec exemples)
Vous pouvez utiliser les méthodes suivantes pour compter le nombre de valeurs uniques par groupe dans R :
Méthode 1 : utiliser Base R
results <- aggregate(data=df, values_var~group_var, function(x) length(unique(x)))
Méthode 2 : utiliser dplyr
library(dplyr) results <- df %>% group_by(group_var) %>% summarize(count = n_distinct(values_var))
Méthode 3 : utilisation de data.table
library(data.table)
df <- data.table(df)
results <- df[ , .(count = length(unique(values_var))), by = group_var]
Chaque méthode renvoie exactement le même résultat, mais la méthode de base R a tendance à être nettement plus lente lorsque vous travaillez avec des trames de données volumineuses.
Les exemples suivants montrent comment utiliser chacune de ces méthodes en pratique avec le bloc de données suivant :
#create data frame
df <- data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'C'),
points=c(10, 10, 14, 14, 18, 19, 20, 20, 20))
#view data frame
df
team points
1 A 10
2 A 10
3 A 14
4 A 14
5 B 18
6 B 19
7 C 20
8 C 20
9 C 20
Méthode 1 : compter les valeurs uniques par groupe à l’aide de Base R
Le code suivant montre comment compter le nombre de valeurs de points distinctes pour chaque équipe en utilisant la base R :
#count unique points values by team
results <- aggregate(data=df, points~team, function(x) length(unique(x)))
#view results
results
team points
1 A 2
2 B 2
3 C 1
À partir du résultat, nous pouvons voir :
- Il existe 2 valeurs de points uniques pour l’équipe A.
- Il existe 2 valeurs de points uniques pour l’équipe B.
- Il y a 1 valeur de points unique pour l’équipe C.
Méthode 2 : compter les valeurs uniques par groupe à l’aide de dplyr
Le code suivant montre comment compter le nombre de valeurs de points distinctes pour chaque équipe à l’aide de dplyr :
library(dplyr)
#count unique points values by team
results <- df %>%
group_by(team) %>%
summarize(count = n_distinct(points))
#view results
results
# A tibble: 3 x 2
team count
1 A 2
2 B 2
3 C 1
Notez que ces résultats correspondent à ceux de la méthode de base R.
Méthode 3 : compter les valeurs uniques par groupe à l’aide de data.table
Le code suivant montre comment compter le nombre de valeurs de points distinctes pour chaque équipe à l’aide de data.table :
library(data.table)
#convert data frame to data table
df <- data.table(df)
#count unique points values by team
results <- df[ , .(count = length(unique(points))), by = team]
#view results
results
team count
1: A 2
2: B 2
3: C 1
Notez que ces résultats correspondent à ceux des deux méthodes précédentes.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes à l’aide de dplyr :
Comment recoder des valeurs à l’aide de dplyr
Comment remplacer NA par Zero dans dplyr
Comment classer les variables par groupe à l’aide de dplyr
Comment sélectionner la première ligne par groupe à l’aide de dplyr