Pandas : comment combiner des lignes avec les mêmes valeurs de colonne
Vous pouvez utiliser la syntaxe de base suivante pour combiner des lignes avec les mêmes valeurs de colonne dans un DataFrame pandas :
#define how to aggregate various fields agg_functions = {'field1': 'first', 'field2': 'sum', 'field': 'sum'} #create new DataFrame by combining rows with same id values df_new = df.groupby(df['id']).aggregate(agg_functions)
L’exemple suivant montre comment utiliser cette syntaxe dans la pratique.
Exemple : combiner des lignes avec les mêmes valeurs de colonne dans Pandas
Supposons que nous ayons le DataFrame pandas suivant qui contient des informations sur les ventes et les retours effectués par divers employés d’une entreprise :
import pandas as pd #create dataFrame df = pd.DataFrame({'id': [101, 101, 102, 103, 103, 103], 'employee': ['Dan', 'Dan', 'Rick', 'Ken', 'Ken', 'Ken'], 'sales': [4, 1, 3, 2, 5, 3], 'returns': [1, 2, 2, 1, 3, 2]}) #view DataFrame print(df) id employee sales returns 0 101 Dan 4 1 1 101 Dan 1 2 2 102 Rick 3 2 3 103 Ken 2 1 4 103 Ken 5 3 5 103 Ken 3 2
Nous pouvons utiliser la syntaxe suivante pour combiner les lignes qui ont la même valeur dans la colonne id , puis agréger les colonnes restantes :
#define how to aggregate various fields agg_functions = {'employee': 'first', 'sales': 'sum', 'returns': 'sum'} #create new DataFrame by combining rows with same id values df_new = df.groupby(df['id']).aggregate(agg_functions) #view new DataFrame print(df_new) employee sales returns id 101 Dan 5 3 102 Rick 3 2 103 Ken 10 6
Le nouveau DataFrame combinait toutes les lignes du DataFrame précédent qui avaient la même valeur dans la colonne id , puis calculait la somme des valeurs dans les colonnes ventes et retours .
Remarque : reportez-vous à la documentation pandas pour une liste complète des agrégations disponibles à utiliser avec la fonction GroupBy() .
Ressources additionnelles
Les didacticiels suivants expliquent comment effectuer d’autres tâches courantes dans les pandas :
Pandas : comment trouver la différence entre deux colonnes
Pandas : comment trouver la différence entre deux lignes
Pandas : comment trier les colonnes par nom