Comment réparer : les colonnes se chevauchent mais aucun suffixe n’est spécifié
Une erreur que vous pouvez rencontrer lors de l’utilisation de pandas est :
ValueError: columns overlap but no suffix specified: Index(['column'], dtype='object')
Cette erreur se produit lorsque vous tentez de réunir deux blocs de données partageant au moins un nom de colonne commun et qu’aucun suffixe n’est fourni pour le bloc de données gauche ou droit afin de distinguer les colonnes du nouveau bloc de données.
Il existe deux manières de corriger cette erreur :
Solution 1 : fournissez des noms de suffixes.
df1.join(df2, how = 'left', lsuffix='left', rsuffix='right')
Solution 2 : utilisez plutôt la fonction de fusion.
df1.merge(df2, how = 'left')
L’exemple suivant montre comment corriger cette erreur dans la pratique.
Comment reproduire l’erreur
Supposons que nous essayions de réunir les deux trames de données suivantes :
import pandas as pd #create first data frame df1 = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F'], 'points': [5, 7, 7, 9, 12, 9], 'assists': [11, 8, 10, 6, 6, 5]}) #create second data frame df2 = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F'], 'rebounds': [4, 4, 6, 9, 13, 16], 'steals': [2, 2, 1, 4, 3, 2]}) #attempt to perform left join on data frames df1.join(df2, how = 'left') ValueError: columns overlap but no suffix specified: Index(['player'], dtype='object')
Nous recevons une erreur car les deux trames de données partagent toutes deux la colonne « joueur », mais aucun suffixe n’est fourni pour la trame de données gauche ou droite pour distinguer les colonnes de la nouvelle trame de données.
Comment réparer l’erreur
Une façon de corriger cette erreur consiste à fournir un nom de suffixe pour le bloc de données gauche ou droit :
#perform left join on data frames with suffix provided df1.join(df2, how = 'left', lsuffix='left', rsuffix='right') playerleft points assists playerright rebounds steals 0 A 5 11 A 4 2 1 B 7 8 B 4 2 2 C 7 10 C 6 1 3 D 9 6 D 9 4 4 E 12 6 E 13 3 5 F 9 5 F 16 2
Une autre façon de corriger cette erreur consiste simplement à utiliser la fonction merge() , qui ne rencontre pas ce problème lors de la jonction de deux trames de données :
#merge two data frames df1.merge(df2, how = 'left') player points assists rebounds steals 0 A 5 11 4 2 1 B 7 8 4 2 2 C 7 10 6 1 3 D 9 6 9 4 4 E 12 6 13 3 5 F 9 5 16 2
Notez que la fonction merge() supprime simplement tous les noms du deuxième bloc de données qui appartiennent déjà au premier bloc de données.
Ressources additionnelles
Comment fusionner deux DataFrames Pandas sur l’index
Comment fusionner des DataFrames Pandas sur plusieurs colonnes
Comment ajouter un tableau Numpy à un DataFrame Pandas