Panda: come rimuovere i duplicati su più colonne


È possibile utilizzare i seguenti metodi per rimuovere righe duplicate su più colonne in un DataFrame panda:

Metodo 1: rimuovi i duplicati in tutte le colonne

 df. drop_duplicates ()

Metodo 2: rimuovere i duplicati in colonne specifiche

 df. drop_duplicates ([' column1 ',' column3 '])

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Esempio 1: rimuovi i duplicati in tutte le colonne

Il codice seguente mostra come rimuovere righe con valori duplicati in tutte le colonne:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

La riga nella posizione dell’indice 1 aveva gli stessi valori in tutte le colonne della riga nella posizione dell’indice 0, quindi è stata rimossa dal DataFrame.

Per impostazione predefinita, Panda mantiene la prima riga come duplicata. Tuttavia, puoi utilizzare l’argomento keep per specificare di mantenere l’ultima riga duplicata:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Esempio 2: rimuovi i duplicati in colonne specifiche

Puoi utilizzare il seguente codice per rimuovere righe con valori duplicati solo nelle colonne regione e negozio :

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

In totale, due righe sono state rimosse dal DataFrame perché contenevano valori duplicati nelle colonne Region e Store .

Nota : puoi trovare la documentazione completa per la funzione drop_duplicates() qui .

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Come trovare duplicati nei panda
Come rimuovere le colonne duplicate in Pandas
Come rimuovere la prima riga in Pandas DataFrame

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *