Comment trouver et compter les valeurs manquantes dans R (avec exemples)



Vous pouvez utiliser les méthodes suivantes pour rechercher et compter les valeurs manquantes dans R :

Méthode 1 : trouver l’emplacement des valeurs manquantes

which(is.na(df$column_name))

Méthode 2 : compter le total des valeurs manquantes

sum(is.na(df$column_name))

Les exemples suivants montrent comment utiliser ces fonctions dans la pratique.

Exemple 1 : Rechercher et compter les valeurs manquantes dans une colonne

Supposons que nous ayons le bloc de données suivant :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(NA, 28, NA, NA, 34),
                 rebounds=c(30, 28, 24, 24, NA))

#view data frame
df

  team points assists rebounds
1    A     99      NA       30
2    B     90      28       28
3    C     86      NA       24
4   NA     88      NA       24
5    E     95      34       NA

Nous pouvons utiliser le code suivant pour identifier les postes qui ont des valeurs manquantes dans la colonne « assistances » et trouver le total des valeurs manquantes dans la colonne « assistances » :

#identify locations of missing values in 'assists' column
which(is.na(df$assists))

[1] 1 3 4

#count total missing values in 'assists' column
sum(is.na(df$assists))

[1] 3 

À partir du résultat, nous pouvons voir que les positions 1 , 3 et 4 ont des valeurs manquantes dans la colonne « assistances » et qu’il y a un total de 3 valeurs manquantes dans la colonne.

Exemple 2 : Compter les valeurs manquantes dans toutes les colonnes

Le code suivant montre comment compter le total des valeurs manquantes dans chaque colonne d’un bloc de données :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(NA, 28, NA, NA, 34),
                 rebounds=c(30, 28, 24, 24, NA))

#count total missing values in each column of data frame
sapply(df, function(x) sum(is.na(x)))

    team   points  assists rebounds 
       1        0        3        1 

À partir du résultat, nous pouvons voir :

  • La colonne « équipe » a 1 valeur manquante.
  • La colonne « points » contient 0 valeur manquante.
  • La colonne « assistances » comporte 3 valeurs manquantes.
  • La colonne « rebonds » comporte 1 valeur manquante.

Exemple 3 : Compter les valeurs manquantes dans l’ensemble du bloc de données

Le code suivant montre comment compter le total des valeurs manquantes dans un bloc de données entier :

#create data frame
df <- data.frame(team=c('A', 'B', 'C', NA, 'E'),
                 points=c(99, 90, 86, 88, 95),
                 assists=c(NA, 28, NA, NA, 34),
                 rebounds=c(30, 28, 24, 24, NA))

#count total missing values in entire data frame
sum(is.na(df))

[1] 5 

À partir du résultat, nous pouvons voir qu’il y a 5 valeurs manquantes au total dans l’ensemble du bloc de données.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes avec des valeurs manquantes dans R :

Comment imputer les valeurs manquantes dans R
Comment remplacer les NA par des chaînes dans R
Comment remplacer les NA par Zero dans dplyr

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *