Comment compter les valeurs manquantes dans un DataFrame Pandas



Souvent, vous souhaiterez peut-être compter le nombre de valeurs manquantes dans un DataFrame pandas.

Ce didacticiel montre plusieurs exemples de la façon de compter les valeurs manquantes à l’aide du DataFrame suivant :

import pandas as pd
import numpy as np

#create DataFrame with some missing values
df = pd.DataFrame({'a': [4, np.nan, np.nan, 7, 8, 12],
                   'b': [np.nan, 6, 8, 14, 29, np.nan],
                   'c': [11, 8, 10, 6, 6, np.nan]})

#view DataFrame
print(df)

      a     b     c
0   4.0   NaN  11.0
1   NaN   6.0   8.0
2   NaN   8.0  10.0
3   7.0  14.0   6.0
4   8.0  29.0   6.0
5  12.0   NaN   NaN

Comptez le total des valeurs manquantes dans l’ensemble du DataFrame

Le code suivant montre comment calculer le nombre total de valeurs manquantes dans l’ensemble du DataFrame :

df.isnull().sum().sum()

5

Cela nous indique qu’il y a 5 valeurs manquantes au total.

Comptez le total des valeurs manquantes par colonne

Le code suivant montre comment calculer le nombre total de valeurs manquantes dans chaque colonne du DataFrame :

df.isnull().sum()

a    2
b    2
c    1

Cela nous dit :

  • La colonne « a » comporte 2 valeurs manquantes.
  • La colonne « b » comporte 2 valeurs manquantes.
  • La colonne « c » comporte 1 valeur manquante.

Vous pouvez également afficher le nombre de valeurs manquantes sous forme de pourcentage de la colonne entière :

df.isnull().sum()/len(df)*100

a    33.333333
b    33.333333
c    16.666667

Cela nous dit :

  • 33,33 % des valeurs de la colonne « a » sont manquantes.
  • 33,33 % des valeurs de la colonne « b » sont manquantes.
  • 16,67 % des valeurs de la colonne « c » sont manquantes.

Comptez le total des valeurs manquantes par ligne

Le code suivant montre comment calculer le nombre total de valeurs manquantes dans chaque ligne du DataFrame :

df.isnull().sum(axis=1)

0    1
1    1
2    1
3    0
4    0
5    2

Cela nous dit :

  • La ligne 1 comporte 1 valeur manquante.
  • La ligne 2 comporte 1 valeur manquante.
  • La ligne 3 comporte 1 valeur manquante.
  • La ligne 4 comporte 0 valeur manquante.
  • La ligne 5 comporte 0 valeur manquante.
  • La ligne 6 comporte 2 valeurs manquantes.

Ressources additionnelles

Comment trouver des valeurs uniques dans plusieurs colonnes dans Pandas
Comment créer une nouvelle colonne basée sur une condition dans Pandas

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *