Come rimuovere le righe duplicate in un pandas dataframe
Il modo più semplice per rimuovere righe duplicate in un DataFrame panda è utilizzare la funzione drop_duplicates() , che utilizza la seguente sintassi:
df.drop_duplicates(subset=None, keep=’first’, inplace=False)
Oro:
- sottoinsieme: quali colonne prendere in considerazione per identificare i duplicati. L’impostazione predefinita è tutte le colonne.
- keep: specifica quali duplicati (se presenti) conservare.
- first: rimuove tutte le righe duplicate tranne la prima.
- last: rimuove tutte le righe duplicate tranne l’ultima.
- Falso : rimuove tutti i duplicati.
- inplace: indica se rimuovere i duplicati sul posto o restituire una copia del DataFrame.
Questo tutorial fornisce diversi esempi di utilizzo pratico di questa funzione sul seguente DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'], 'points': [3, 7, 7, 8, 8, 9], 'assists': [8, 6, 7, 9, 9, 3]}) #display DataFrame print (df) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 d 9 3
Esempio 1: rimuovi i duplicati in tutte le colonne
Il codice seguente mostra come rimuovere righe con valori duplicati in tutte le colonne:
df. drop_duplicates ()
team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3
Per impostazione predefinita, la funzione drop_duplicates() rimuove tutti i duplicati tranne il primo.
Tuttavia, potremmo utilizzare l’argomento keep=False per rimuovere completamente tutti i duplicati:
df. drop_duplicates (keep= False ) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 5 d 9 3
Esempio 2: rimuovi i duplicati in colonne specifiche
Il codice seguente mostra come rimuovere le righe con valori duplicati solo nelle colonne etichettate squadra e punti :
df. drop_duplicates (subset=[' team ', ' points ']) team points assists 0 to 3 8 1 b 7 6 3 c 8 9 5 d 9 3
Risorse addizionali
Come rimuovere le colonne duplicate in Pandas
Come ordinare i valori in un Pandas DataFrame
Come filtrare un Pandas DataFrame su più condizioni
Come inserire una colonna in un DataFrame Pandas