Pandas : Comment sélectionner des lignes entre deux dates



Vous pouvez utiliser la syntaxe suivante pour sélectionner des lignes entre deux dates spécifiques dans un DataFrame pandas :

df[df.date.between('2022-01-02', '2022-01-06')]

Cet exemple particulier sélectionne toutes les lignes du DataFrame entre le 02/01/2022 et le 06/01/2022.

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : sélectionner des lignes entre deux dates dans Pandas

Supposons que nous ayons le DataFrame pandas suivant :

import pandas as pd

#create DataFrame
df = pd.DataFrame({'date': pd.date_range(start='1/1/2022', periods=8),
                   'sales': [18, 20, 15, 14, 10, 9, 8, 12],
                   'returns': [5, 7, 7, 9, 12, 3, 2, 4]})

#view DataFrame
print(df)

        date  sales  returns
0 2022-01-01     18        5
1 2022-01-02     20        7
2 2022-01-03     15        7
3 2022-01-04     14        9
4 2022-01-05     10       12
5 2022-01-06      9        3
6 2022-01-07      8        2
7 2022-01-08     12        4

Nous pouvons utiliser la syntaxe suivante pour sélectionner uniquement les lignes comprises entre la date du 02/01/2022 et le 06/01/2022 :

#select all rows where date is between 2022-01-02 and 2022-01-06
df[df.date.between('2022-01-02', '2022-01-06')]

              date      sales   returns
1	2022-01-02	20	7
2	2022-01-03	15	7
3	2022-01-04	14	9
4	2022-01-05	10	12
5	2022-01-06	9	3

Notez que seules les lignes entre les dates 2022-01-02 et 2022-01-06 sont sélectionnées.

Si vous le souhaitez, vous pouvez également définir les dates de début et de fin en dehors de la fonction between() :

#define start and end dates
start_date = '2022-01-02'
end_date = '2022-01-06'

#select all rows where date is between start and end
df[df.date.between(start_date, end_date)]


              date	sales	returns
1	2022-01-02	20	7
2	2022-01-03	15	7
3	2022-01-04	14	9
4	2022-01-05	10	12
5	2022-01-06	9	3

Cela produit le même résultat.

Notez que si votre colonne de date n’est pas dans un format datetime reconnaissable, vous devrez peut-être d’abord utiliser le code suivant pour la convertir au format datetime :

df['date'] = pd.to_datetime(df['date']) 

Une fois que vous avez fait cela, vous pouvez utiliser la fonction between() pour sélectionner des lignes entre des dates spécifiques.

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres opérations courantes dans les pandas :

Comment créer une plage de dates dans Pandas
Comment extraire le mois de la date dans Pandas
Comment convertir l’horodatage en date/heure dans Pandas

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *