Come rimuovere le righe duplicate in un pandas dataframe


Il modo più semplice per rimuovere righe duplicate in un DataFrame panda è utilizzare la funzione drop_duplicates() , che utilizza la seguente sintassi:

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

Oro:

  • sottoinsieme: quali colonne prendere in considerazione per identificare i duplicati. L’impostazione predefinita è tutte le colonne.
  • keep: specifica quali duplicati (se presenti) conservare.
    • first: rimuove tutte le righe duplicate tranne la prima.
    • last: rimuove tutte le righe duplicate tranne l’ultima.
    • Falso : rimuove tutti i duplicati.
  • inplace: indica se rimuovere i duplicati sul posto o restituire una copia del DataFrame.

Questo tutorial fornisce diversi esempi di utilizzo pratico di questa funzione sul seguente DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

Esempio 1: rimuovi i duplicati in tutte le colonne

Il codice seguente mostra come rimuovere righe con valori duplicati in tutte le colonne:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

Per impostazione predefinita, la funzione drop_duplicates() rimuove tutti i duplicati tranne il primo.

Tuttavia, potremmo utilizzare l’argomento keep=False per rimuovere completamente tutti i duplicati:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

Esempio 2: rimuovi i duplicati in colonne specifiche

Il codice seguente mostra come rimuovere le righe con valori duplicati solo nelle colonne etichettate squadra e punti :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

Risorse addizionali

Come rimuovere le colonne duplicate in Pandas
Come ordinare i valori in un Pandas DataFrame
Come filtrare un Pandas DataFrame su più condizioni
Come inserire una colonna in un DataFrame Pandas

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *