Pandas : comment combiner des lignes avec les mêmes valeurs de colonne



Vous pouvez utiliser la syntaxe de base suivante pour combiner des lignes avec les mêmes valeurs de colonne dans un DataFrame pandas :

#define how to aggregate various fields
agg_functions = {'field1': 'first', 'field2': 'sum', 'field': 'sum'}

#create new DataFrame by combining rows with same id values
df_new = df.groupby(df['id']).aggregate(agg_functions)

L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.

Exemple : combiner des lignes avec les mêmes valeurs de colonne dans Pandas

Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur les ventes et les retours effectués par divers employés d’une entreprise :

import pandas as pd

#create dataFrame
df = pd.DataFrame({'id': [101, 101, 102, 103, 103, 103],
                   'employee': ['Dan', 'Dan', 'Rick', 'Ken', 'Ken', 'Ken'],
                   'sales': [4, 1, 3, 2, 5, 3],
                   'returns': [1, 2, 2, 1, 3, 2]})

#view DataFrame
print(df)

    id employee  sales  returns
0  101      Dan      4        1
1  101      Dan      1        2
2  102     Rick      3        2
3  103      Ken      2        1
4  103      Ken      5        3
5  103      Ken      3        2

Nous pouvons utiliser la syntaxe suivante pour combiner les lignes qui ont la même valeur dans la colonne id , puis agréger les colonnes restantes :

#define how to aggregate various fields
agg_functions = {'employee': 'first', 'sales': 'sum', 'returns': 'sum'}

#create new DataFrame by combining rows with same id values
df_new = df.groupby(df['id']).aggregate(agg_functions)

#view new DataFrame
print(df_new)

    employee  sales  returns
id                          
101      Dan      5        3
102     Rick      3        2
103      Ken     10        6

Le nouveau DataFrame combinait toutes les lignes du DataFrame précédent qui avaient la même valeur dans la colonne id , puis calculait la somme des valeurs dans les colonnes ventes et retours .

Remarque : reportez-vous à la documentation pandas pour une liste complète des agrégations disponibles à utiliser avec la fonction GroupBy() .

Ressources additionnelles

Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :

Pandas : comment trouver la différence entre deux colonnes
Pandas : comment trouver la différence entre deux lignes
Pandas : comment trier les colonnes par nom

Ajouter un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *