Comment supprimer des lignes avec des valeurs NaN dans Pandas

Par Dr. Benjamin Anderson juillet 28, 2023 Guide 0 commentaire

Souvent, vous souhaiterez peut-être supprimer des lignes contenant des valeurs NaN dans un DataFrame pandas. Heureusement, cela est facile à faire en utilisant la fonction pandas dropna() .

Ce tutoriel montre plusieurs exemples d’utilisation de cette fonction sur le DataFrame pandas suivant :

import numpy as np
import scipy.stats as stats

#create DataFrame with some NaN values
df = pd.DataFrame({'rating': [np.nan, 85, np.nan, 88, 94, 90, 76, 75, 87, 86],
                   'points': [np.nan, 25, 14, 16, 27, 20, 12, 15, 14, 19],
                   'assists': [5, 7, 7, np.nan, 5, 7, 6, 9, 9, 5],
                   'rebounds': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]})

#view DataFrame
df


        rating	points	assists	rebounds
0	NaN	NaN	5.0	11
1	85.0	25.0	7.0	8
2	NaN	14.0	7.0	10
3	88.0	16.0	NaN	6
4	94.0	27.0	5.0	6
5	90.0	20.0	7.0	9
6	76.0	12.0	6.0	6
7	75.0	15.0	9.0	10
8	87.0	14.0	9.0	10
9	86.0	19.0	5.0	7

Exemple 1 : supprimer des lignes avec des valeurs NaN

Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes contenant des valeurs NaN :

df.dropna()

	rating	points	assists	rebounds
1	85.0	25.0	7.0	8
4	94.0	27.0	5.0	6
5	90.0	20.0	7.0	9
6	76.0	12.0	6.0	6
7	75.0	15.0	9.0	10
8	87.0	14.0	9.0	10
9	86.0	19.0	5.0	7

Exemple 2 : supprimer les lignes avec toutes les valeurs NaN

Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes contenant toutes les valeurs NaN dans chaque colonne :

df.dropna(how='all') 

        rating	points	assists	rebounds
0	NaN	NaN	5.0	11
1	85.0	25.0	7.0	8
2	NaN	14.0	7.0	10
3	88.0	16.0	NaN	6
4	94.0	27.0	5.0	6
5	90.0	20.0	7.0	9
6	76.0	12.0	6.0	6
7	75.0	15.0	9.0	10
8	87.0	14.0	9.0	10
9	86.0	19.0	5.0	7

Il n’y avait aucune ligne avec toutes les valeurs NaN dans ce DataFrame particulier, donc aucune des lignes n’a été supprimée.

Exemple 3 : supprimer des lignes en dessous d’un certain seuil

Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes qui n’ont pas un certain au moins un certain nombre de valeurs non NaN :

df.dropna(thresh=3) 

	rating	points	assists	rebounds
1	85.0	25.0	7.0	8
2	NaN	14.0	7.0	10
3	88.0	16.0	NaN	6
4	94.0	27.0	5.0	6
5	90.0	20.0	7.0	9
6	76.0	12.0	6.0	6
7	75.0	15.0	9.0	10
8	87.0	14.0	9.0	10
9	86.0	19.0	5.0	7

La toute première ligne du DataFrame d’origine ne contenait pas au moins 3 valeurs non NaN, c’était donc la seule ligne qui a été supprimée.

Exemple 4 : supprimer une ligne avec des valeurs Nan dans une colonne spécifique

Nous pouvons utiliser la syntaxe suivante pour supprimer toutes les lignes qui ont une valeur NaN dans une colonne spécifique :

df.dropna(subset=['assists'])

	rating	points	assists	rebounds
0	NaN	NaN	5.0	11
1	85.0	25.0	7.0	8
2	NaN	14.0	7.0	10
4	94.0	27.0	5.0	6
5	90.0	20.0	7.0	9
6	76.0	12.0	6.0	6
7	75.0	15.0	9.0	10
8	87.0	14.0	9.0	10
9	86.0	19.0	5.0	7

Exemple 5 : réinitialiser l’index après avoir supprimé des lignes avec des NaN

Nous pouvons utiliser la syntaxe suivante pour réinitialiser l’index du DataFrame après avoir supprimé les lignes avec les valeurs NaN :

#drop all rows that have any NaN values
df = df.dropna()

#reset index of DataFrame
df = df.reset_index(drop=True)

#view DataFrame
df

        rating	points	assists	rebounds
0	85.0	25.0	7.0	8
1	94.0	27.0	5.0	6
2	90.0	20.0	7.0	9
3	76.0	12.0	6.0	6
4	75.0	15.0	9.0	10
5	87.0	14.0	9.0	10
6	86.0	19.0	5.0	77

Vous pouvez trouver la documentation complète de la fonction dropna() ici .

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus