Comment supprimer des lignes avec des valeurs NaN dans Pandas
Souvent, vous souhaiterez peut-être supprimer des lignes contenant des valeurs NaN dans un DataFrame pandas. Heureusement, cela est facile à faire en utilisant la fonction pandas dropna() .
Ce tutoriel montre plusieurs exemples d’utilisation de cette fonction sur le DataFrame pandas suivant :
import numpy as np import scipy.stats as stats #create DataFrame with some NaN values df = pd.DataFrame({'rating': [np.nan, 85, np.nan, 88, 94, 90, 76, 75, 87, 86], 'points': [np.nan, 25, 14, 16, 27, 20, 12, 15, 14, 19], 'assists': [5, 7, 7, np.nan, 5, 7, 6, 9, 9, 5], 'rebounds': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]}) #view DataFrame df rating points assists rebounds 0 NaN NaN 5.0 11 1 85.0 25.0 7.0 8 2 NaN 14.0 7.0 10 3 88.0 16.0 NaN 6 4 94.0 27.0 5.0 6 5 90.0 20.0 7.0 9 6 76.0 12.0 6.0 6 7 75.0 15.0 9.0 10 8 87.0 14.0 9.0 10 9 86.0 19.0 5.0 7
Exemple 1 : supprimer des lignes avec des valeurs NaN
Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes contenant des valeurs NaN :
df.dropna()
rating points assists rebounds
1 85.0 25.0 7.0 8
4 94.0 27.0 5.0 6
5 90.0 20.0 7.0 9
6 76.0 12.0 6.0 6
7 75.0 15.0 9.0 10
8 87.0 14.0 9.0 10
9 86.0 19.0 5.0 7
Exemple 2 : supprimer les lignes avec toutes les valeurs NaN
Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes contenant toutes les valeurs NaN dans chaque colonne :
df.dropna(how='all') rating points assists rebounds 0 NaN NaN 5.0 11 1 85.0 25.0 7.0 8 2 NaN 14.0 7.0 10 3 88.0 16.0 NaN 6 4 94.0 27.0 5.0 6 5 90.0 20.0 7.0 9 6 76.0 12.0 6.0 6 7 75.0 15.0 9.0 10 8 87.0 14.0 9.0 10 9 86.0 19.0 5.0 7
Il n’y avait aucune ligne avec toutes les valeurs NaN dans ce DataFrame particulier, donc aucune des lignes n’a été supprimée.
Exemple 3 : supprimer des lignes en dessous d’un certain seuil
Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes qui n’ont pas un certain au moins un certain nombre de valeurs non NaN :
df.dropna(thresh=3) rating points assists rebounds 1 85.0 25.0 7.0 8 2 NaN 14.0 7.0 10 3 88.0 16.0 NaN 6 4 94.0 27.0 5.0 6 5 90.0 20.0 7.0 9 6 76.0 12.0 6.0 6 7 75.0 15.0 9.0 10 8 87.0 14.0 9.0 10 9 86.0 19.0 5.0 7
La toute première ligne du DataFrame d’origine ne contenait pas au moins 3 valeurs non NaN, c’était donc la seule ligne qui a été supprimée.
Exemple 4 : supprimer une ligne avec des valeurs Nan dans une colonne spécifique
Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes qui ont une valeur NaN dans une colonne spécifique :
df.dropna(subset=['assists']) rating points assists rebounds 0 NaN NaN 5.0 11 1 85.0 25.0 7.0 8 2 NaN 14.0 7.0 10 4 94.0 27.0 5.0 6 5 90.0 20.0 7.0 9 6 76.0 12.0 6.0 6 7 75.0 15.0 9.0 10 8 87.0 14.0 9.0 10 9 86.0 19.0 5.0 7
Exemple 5 : réinitialiser l’index après avoir supprimé des lignes avec des NaN
Nous pouvons utiliser la syntaxe suivante pour réinitialiser l’index du DataFrame après avoir supprimé les lignes avec les valeurs NaN :
#drop all rows that have any NaN values df = df.dropna() #reset index of DataFrame df = df.reset_index(drop=True) #view DataFrame df rating points assists rebounds 0 85.0 25.0 7.0 8 1 94.0 27.0 5.0 6 2 90.0 20.0 7.0 9 3 76.0 12.0 6.0 6 4 75.0 15.0 9.0 10 5 87.0 14.0 9.0 10 6 86.0 19.0 5.0 77
Vous pouvez trouver la documentation complète de la fonction dropna() ici .