Comment trouver et compter les valeurs manquantes dans R (avec exemples)
Vous pouvez utiliser les méthodes suivantes pour rechercher et compter les valeurs manquantes dans R :
Méthode 1 : trouver l’emplacement des valeurs manquantes
which(is.na(df$column_name))
Méthode 2 : compter le total des valeurs manquantes
sum(is.na(df$column_name))
Les exemples suivants montrent comment utiliser ces fonctions dans la pratique.
Exemple 1 : Rechercher et compter les valeurs manquantes dans une colonne
Supposons que nous ayons le bloc de données suivant :
#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
points=c(99, 90, 86, 88, 95),
assists=c(NA, 28, NA, NA, 34),
rebounds=c(30, 28, 24, 24, NA))
#view data frame
df
team points assists rebounds
1 A 99 NA 30
2 B 90 28 28
3 C 86 NA 24
4 NA 88 NA 24
5 E 95 34 NA
Nous pouvons utiliser le code suivant pour identifier les postes qui ont des valeurs manquantes dans la colonne « assistances » et trouver le total des valeurs manquantes dans la colonne « assistances » :
#identify locations of missing values in 'assists' column
which(is.na(df$assists))
[1] 1 3 4
#count total missing values in 'assists' column
sum(is.na(df$assists))
[1] 3
À partir du résultat, nous pouvons voir que les positions 1 , 3 et 4 ont des valeurs manquantes dans la colonne « assistances » et qu’il y a un total de 3 valeurs manquantes dans la colonne.
Exemple 2 : Compter les valeurs manquantes dans toutes les colonnes
Le code suivant montre comment compter le total des valeurs manquantes dans chaque colonne d’un bloc de données :
#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
points=c(99, 90, 86, 88, 95),
assists=c(NA, 28, NA, NA, 34),
rebounds=c(30, 28, 24, 24, NA))
#count total missing values in each column of data frame
sapply(df, function(x) sum(is.na(x)))
team points assists rebounds
1 0 3 1
À partir du résultat, nous pouvons voir :
- La colonne « équipe » a 1 valeur manquante.
- La colonne « points » contient 0 valeur manquante.
- La colonne « assistances » comporte 3 valeurs manquantes.
- La colonne « rebonds » comporte 1 valeur manquante.
Exemple 3 : Compter les valeurs manquantes dans l’ensemble du bloc de données
Le code suivant montre comment compter le total des valeurs manquantes dans un bloc de données entier :
#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
points=c(99, 90, 86, 88, 95),
assists=c(NA, 28, NA, NA, 34),
rebounds=c(30, 28, 24, 24, NA))
#count total missing values in entire data frame
sum(is.na(df))
[1] 5
À partir du résultat, nous pouvons voir qu’il y a 5 valeurs manquantes au total dans l’ensemble du bloc de données.
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes avec des valeurs manquantes dans R :
Comment imputer les valeurs manquantes dans R
Comment remplacer les NA par des chaînes dans R
Comment remplacer les NA par Zero dans dplyr