Comment compter les valeurs uniques dans une colonne dans R



Vous pouvez utiliser les méthodes suivantes pour compter le nombre de valeurs uniques dans une colonne d’un bloc de données dans R :

Méthode 1 : utiliser Base R

length(unique(df$my_column))

Méthode 2 : utiliser dplyr

library(dplyr)

n_distinct(df$my_column)

Les exemples suivants montrent comment utiliser chaque méthode en pratique avec le bloc de données suivant :

#create data frame
df <- data.frame(team=c('A', 'A', 'A', 'A', 'B', 'B', 'C', 'C', 'D'),
                 points=c(10, 13, 14, 14, 18, 19, 20, 20, 22))

#view data frame
df

  team points
1    A     10
2    A     13
3    A     14
4    A     14
5    B     18
6    B     19
7    C     20
8    C     20
9    D     22

Méthode 1 : compter les valeurs uniques dans la colonne à l’aide de la base R

Le code suivant montre comment compter le nombre de valeurs uniques dans la colonne de points du bloc de données à l’aide des fonctions de la base R :

#count unique values in points column
length(unique(df$points))

[1] 7

Il y a 7 valeurs uniques dans la colonne des points .

Pour compter le nombre de valeurs uniques dans chaque colonne du bloc de données, nous pouvons utiliser la fonction sapply() :

#count unique values in each column
sapply(df, function(x) length(unique(x)))

  team points 
     4      7

À partir du résultat, nous pouvons voir :

  • Il y a 7 valeurs uniques dans la colonne des points .
  • Il y a 4 valeurs uniques dans la colonne de l’ équipe .

Méthode 2 : compter les valeurs uniques dans la colonne à l’aide de dplyr

Le code suivant montre comment compter le nombre de valeurs distinctes dans la colonne points à l’aide de la fonction n_distinct() du package dplyr :

library(dplyr)

#count unique values in points column
n_distinct(df$points)

[1] 7

Il y a 7 valeurs uniques dans la colonne des points .

Pour compter le nombre de valeurs uniques dans chaque colonne du bloc de données, nous pouvons utiliser la fonction sapply() :

library(dplyr) 

#count unique values in each column
sapply(df, function(x) n_distinct(x))

  team points 
     4      7

À partir du résultat, nous pouvons voir :

  • Il y a 7 valeurs uniques dans la colonne des points .
  • Il y a 4 valeurs uniques dans la colonne de l’ équipe .

Notez que ces résultats correspondent à ceux de la méthode de base R.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment compter les doublons dans R
Comment compter les valeurs uniques par groupe dans R
Comment compter le nombre de valeurs NA dans chaque colonne dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *