Come contare i duplicati nei panda: con esempi
È possibile utilizzare i seguenti metodi per contare i duplicati in un DataFrame panda:
Metodo 1: conta i valori duplicati in una colonna
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
Metodo 2: contare le righe duplicate
len (df) -len ( df.drop_duplicates ())
Metodo 3: conta i duplicati per ogni riga univoca
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
Esempio 1: conta i valori duplicati in una colonna
Il codice seguente mostra come contare il numero di valori duplicati nella colonna dei punti :
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
Possiamo vedere che ci sono 4 valori duplicati nella colonna dei punti .
Esempio 2: contare le righe duplicate
Il codice seguente mostra come contare il numero di righe duplicate nel DataFrame:
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
Possiamo vedere che ci sono 2 righe duplicate nel DataFrame.
Possiamo usare la seguente sintassi per visualizzare queste 2 righe duplicate:
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
Esempio 3: contare i duplicati per ogni riga univoca
Il codice seguente mostra come contare il numero di duplicati per ogni riga univoca nel DataFrame:
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
La colonna Dimensioni mostra il numero di duplicati per ogni riga univoca.
Risorse addizionali
I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:
Come rimuovere le righe duplicate in Pandas
Come rimuovere le colonne duplicate in Pandas
Come selezionare le colonne per indice in Pandas