Come rimuovere le righe duplicate in un pandas dataframe

Di Benjamin anderson Luglio 26, 2023 Guida 0 commenti

Il modo più semplice per rimuovere righe duplicate in un DataFrame panda è utilizzare la funzione drop_duplicates() , che utilizza la seguente sintassi:

df.drop_duplicates(subset=None, keep=’first’, inplace=False)

Oro:

sottoinsieme: quali colonne prendere in considerazione per identificare i duplicati. L’impostazione predefinita è tutte le colonne.
keep: specifica quali duplicati (se presenti) conservare.
- first: rimuove tutte le righe duplicate tranne la prima.
- last: rimuove tutte le righe duplicate tranne l’ultima.
- Falso : rimuove tutti i duplicati.
inplace: indica se rimuovere i duplicati sul posto o restituire una copia del DataFrame.

Questo tutorial fornisce diversi esempi di utilizzo pratico di questa funzione sul seguente DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

Esempio 1: rimuovi i duplicati in tutte le colonne

Il codice seguente mostra come rimuovere righe con valori duplicati in tutte le colonne:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

Per impostazione predefinita, la funzione drop_duplicates() rimuove tutti i duplicati tranne il primo.

Tuttavia, potremmo utilizzare l’argomento keep=False per rimuovere completamente tutti i duplicati:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

Esempio 2: rimuovi i duplicati in colonne specifiche

Il codice seguente mostra come rimuovere le righe con valori duplicati solo nelle colonne etichettate squadra e punti :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

Risorse addizionali

Come rimuovere le colonne duplicate in Pandas
Come ordinare i valori in un Pandas DataFrame
Come filtrare un Pandas DataFrame su più condizioni
Come inserire una colonna in un DataFrame Pandas

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più

Esempio 1: rimuovi i duplicati in tutte le colonne

Esempio 2: rimuovi i duplicati in colonne specifiche

Risorse addizionali

Informazioni sull'autore

Benjamin anderson

Aggiungi un commento