R : Comment utiliser drop_na pour supprimer des lignes avec des valeurs manquantes
Vous pouvez utiliser la fonction drop_na() du package Tidyr dans R pour supprimer les lignes avec des valeurs manquantes dans un bloc de données.
Il existe trois manières courantes d’utiliser cette fonction :
Méthode 1 : supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne
df %>% drop_na()
Méthode 2 : supprimer les lignes avec des valeurs manquantes dans une colonne spécifique
df %>% drop_na(col1)
Méthode 3 : supprimer les lignes avec des valeurs manquantes dans l’une des plusieurs colonnes spécifiques
df %>% drop_na(c(col1, col2))
Les exemples suivants montrent comment utiliser chacune de ces méthodes en pratique avec le bloc de données suivant :
#create data frame df <- data.frame(points=c(10, NA, 15, 15, 14, 16), assists=c(4, NA, 4, NA, 9, 3), rebounds=c(NA, 5, 10, 7, 7, NA)) #view data frame df points assists rebounds 1 10 4 NA 2 NA NA 5 3 15 4 10 4 15 NA 7 5 14 9 7 6 16 3 NA
Exemple 1 : supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne
Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans n’importe quelle colonne :
library(tidyr)
#drop rows with missing values in any column
df %>% drop_na()
points assists rebounds
1 15 4 10
2 14 9 7
Les seules lignes restantes sont celles qui ne contiennent aucune valeur manquante dans aucune colonne.
Exemple 2 : supprimer les lignes avec des valeurs manquantes dans une colonne spécifique
Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans la colonne des rebonds :
library(tidyr)
#drop rows with missing values in rebounds column
df %>% drop_na(rebounds)
points assists rebounds
1 NA NA 5
2 15 4 10
3 15 NA 7
4 14 9 7
Les seules lignes restantes sont celles sans valeurs manquantes dans la colonne des rebonds .
Exemple 3 : supprimer les lignes avec des valeurs manquantes dans l’une des plusieurs colonnes spécifiques
Le code suivant montre comment utiliser drop_na() pour supprimer les lignes avec des valeurs manquantes dans les colonnes points ou assists :
library(tidyr)
#drop rows with missing values in the points or assists columns
df %>% drop_na(c(points, assists))
points assists rebounds
1 10 4 NA
2 15 4 10
3 14 9 7
4 16 3 NA
Les seules lignes restantes sont celles sans valeurs manquantes dans les colonnes de points ou de passes décisives .
Remarque : Vous pouvez trouver la documentation en ligne complète de la méthode drop_na() ici .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans R :
Comment récupérer les numéros de ligne dans R
Comment ajouter des lignes à un bloc de données dans R
Comment appliquer une fonction à chaque ligne du bloc de données dans R