Come rimuovere colonne duplicate in panda (con esempi)


Puoi utilizzare la seguente sintassi di base per rimuovere le colonne duplicate nei panda:

 df. T. drop_duplicates (). T

Gli esempi seguenti mostrano come utilizzare questa sintassi nella pratica.

Esempio: rimozione delle colonne duplicate in Panda

Supponiamo di avere i seguenti panda DataFrame:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' assists ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

df. columns = ['team', 'points', 'points', 'rebounds']

#view DataFrame
df

	team points points rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Possiamo utilizzare il seguente codice per rimuovere la colonna “punti” duplicata:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Tieni presente che la colonna “punti” è stata rimossa mentre tutte le altre colonne sono rimaste nel DataFrame.

Vale anche la pena notare che questo codice rimuoverà le colonne duplicate anche se le colonne hanno nomi diversi, ma contengono valori identici.

Ad esempio, supponiamo di avere i seguenti panda DataFrame:

 import pandas as pd

#create DataFrame with duplicate columns
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' points2 ': [25, 12, 15, 14, 19, 23, 25, 29],
                   ' rebounds ': [11, 8, 10, 6, 6, 5, 9, 12]})

#view DataFrame
df

	team points points2 rebounds
0 A 25 25 11
1 A 12 12 8
2 A 15 15 10
3 A 14 14 6
4 B 19 19 6
5 B 23 23 5
6 B 25 25 9
7 B 29 29 12

Tieni presente che le colonne “punti” e “punti2” contengono valori identici.

Possiamo utilizzare il seguente codice per rimuovere la colonna duplicata “points2”:

 #remove duplicate columns
df. T. drop_duplicates (). T

team points rebounds
0 to 25 11
1 to 12 8
2 to 15 10
3 to 14 6
4 B 19 6
5 B 23 5
6 B 25 9
7 B 29 12

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre funzioni comuni nei panda:

Come rimuovere le righe duplicate in un Pandas DataFrame
Come eliminare colonne in Pandas
Come escludere colonne in Pandas

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *