Comment réparer : les colonnes se chevauchent mais aucun suffixe n’est spécifié

Par Dr. Benjamin Anderson juillet 24, 2023 Guide 0 commentaire

Une erreur que vous pouvez rencontrer lors de l’utilisation de pandas est :

ValueError: columns overlap but no suffix specified: Index(['column'], dtype='object')

Cette erreur se produit lorsque vous tentez de réunir deux blocs de données partageant au moins un nom de colonne commun et qu’aucun suffixe n’est fourni pour le bloc de données gauche ou droit afin de distinguer les colonnes du nouveau bloc de données.

Il existe deux manières de corriger cette erreur :

Solution 1 : fournissez des noms de suffixes.

df1.join(df2, how = 'left', lsuffix='left', rsuffix='right')

Solution 2 : utilisez plutôt la fonction de fusion.

df1.merge(df2, how = 'left')

L’exemple suivant montre comment corriger cette erreur dans la pratique.

Comment reproduire l’erreur

Supposons que nous essayions de réunir les deux trames de données suivantes :

import pandas as pd

#create first data frame
df1 = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F'],
                    'points': [5, 7, 7, 9, 12, 9],
                    'assists': [11, 8, 10, 6, 6, 5]})

#create second data frame
df2 = pd.DataFrame({'player': ['A', 'B', 'C', 'D', 'E', 'F'],
                    'rebounds': [4, 4, 6, 9, 13, 16],
                    'steals': [2, 2, 1, 4, 3, 2]})

#attempt to perform left join on data frames
df1.join(df2, how = 'left')

ValueError: columns overlap but no suffix specified: Index(['player'], dtype='object')

Nous recevons une erreur car les deux trames de données partagent toutes deux la colonne « joueur », mais aucun suffixe n’est fourni pour la trame de données gauche ou droite pour distinguer les colonnes de la nouvelle trame de données.

Comment réparer l’erreur

Une façon de corriger cette erreur consiste à fournir un nom de suffixe pour le bloc de données gauche ou droit :

#perform left join on data frames with suffix provided
df1.join(df2, how = 'left', lsuffix='left', rsuffix='right')

        playerleft points assists playerright rebounds	steals
0	A	   5	  11	  A	      4	        2
1	B	   7	  8	  B	      4	        2
2	C	   7	  10	  C	      6	        1
3	D	   9	  6	  D	      9	        4
4	E	   12	  6	  E	     13	        3
5	F	   9	  5	  F	     16	        2

Une autre façon de corriger cette erreur consiste simplement à utiliser la fonction merge() , qui ne rencontre pas ce problème lors de la jonction de deux trames de données :

#merge two data frames
df1.merge(df2, how = 'left')

	player	points	assists	rebounds steals
0	A	5	11	4	 2
1	B	7	8	4	 2
2	C	7	10	6	 1
3	D	9	6	9	 4
4	E	12	6	13	 3
5	F	9	5	16	 2

Notez que la fonction merge() supprime simplement tous les noms du deuxième bloc de données qui appartiennent déjà au premier bloc de données.

Ressources additionnelles

Comment fusionner deux DataFrames Pandas sur l’index
Comment fusionner des DataFrames Pandas sur plusieurs colonnes
Comment ajouter un tableau Numpy à un DataFrame Pandas

à propos de l'auteur

Dr. Benjamin Anderson

Il est un professeur de statistiques à la retraite devenu éducateur dévoué sur Statorials. Avec une vaste expérience et une expertise dans le domaine des statistiques, je m'engage à partager mes connaissances pour responsabiliser les étudiants grâce à Statorials. Lire plus

Comment reproduire l’erreur

Comment réparer l’erreur

Ressources additionnelles

à propos de l'auteur

Dr. Benjamin Anderson

Ajouter un commentaire