R : Comment utiliser drop_na pour supprimer des lignes avec des valeurs manquantes



Vous pouvez utiliser la fonction drop_na() du package Tidyr dans R pour supprimer les lignes avec des valeurs manquantes dans un bloc de données.

Il existe trois manières courantes d’utiliser cette fonction :

Méthode 1 : supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne

df %>% drop_na()

Méthode 2 : supprimer les lignes avec des valeurs manquantes dans une colonne spécifique

df %>% drop_na(col1)

Méthode 3 : supprimer les lignes avec des valeurs manquantes dans l’une des plusieurs colonnes spécifiques

df %>% drop_na(c(col1, col2))

Les exemples suivants montrent comment utiliser chacune de ces méthodes en pratique avec le bloc de données suivant :

#create data frame
df <- data.frame(points=c(10, NA, 15, 15, 14, 16),
                 assists=c(4, NA, 4, NA, 9, 3),
                 rebounds=c(NA, 5, 10, 7, 7, NA))

#view data frame
df

  points assists rebounds
1     10       4       NA
2     NA      NA        5
3     15       4       10
4     15      NA        7
5     14       9        7
6     16       3       NA

Exemple 1 : supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne

Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne :

library(tidyr)

#drop rows with missing values in any column
df %>% drop_na()

  points assists rebounds
1     15       4       10
2     14       9        7

Les seules lignes restantes sont celles qui ne contiennent aucune valeur manquante dans aucune colonne.

Exemple 2 : supprimer les lignes avec des valeurs manquantes dans une colonne spécifique

Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans la colonne des rebonds :

library(tidyr)

#drop rows with missing values in rebounds column
df %>% drop_na(rebounds)

  points assists rebounds
1     NA      NA        5
2     15       4       10
3     15      NA        7
4     14       9        7

Les seules lignes restantes sont celles sans valeurs manquantes dans la colonne des rebonds .

Exemple 3 : supprimer les lignes avec des valeurs manquantes dans l’une des plusieurs colonnes spécifiques

Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans les colonnes points ou assists :

library(tidyr)

#drop rows with missing values in the points or assists columns
df %>% drop_na(c(points, assists))

  points assists rebounds
1     10       4       NA
2     15       4       10
3     14       9        7
4     16       3       NA

Les seules lignes restantes sont celles sans valeurs manquantes dans les colonnes de points ou de passes décisives .

Remarque : Vous pouvez trouver la documentation en ligne complète de la méthode drop_na() ici .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :

Comment récupérer les numéros de ligne dans R
Comment ajouter des lignes à un bloc de données dans R
Comment appliquer une fonction à chaque ligne du bloc de données dans R

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *