Come contare i duplicati nei panda: con esempi


È possibile utilizzare i seguenti metodi per contare i duplicati in un DataFrame panda:

Metodo 1: conta i valori duplicati in una colonna

 len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())

Metodo 2: contare le righe duplicate

 len (df) -len ( df.drop_duplicates ())

Metodo 3: conta i duplicati per ogni riga univoca

 df. groupby ( df.columns.tolist (), as_index= False ) . size ()

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con i seguenti DataFrame panda:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'],
                   ' points ': [5, 5, 8, 10, 5, 7, 10, 10]})

#view DataFrame
print (df)

  team position points
0 AG 5
1 GA 5
2 AG 8
3 AF 10
4 BG 5
5 BG 7
6 BF 10
7 BF 10

Esempio 1: conta i valori duplicati in una colonna

Il codice seguente mostra come contare il numero di valori duplicati nella colonna dei punti :

 #count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())

4

Possiamo vedere che ci sono 4 valori duplicati nella colonna dei punti .

Esempio 2: contare le righe duplicate

Il codice seguente mostra come contare il numero di righe duplicate nel DataFrame:

 #count number of duplicate rows
len (df) -len ( df.drop_duplicates ())

2

Possiamo vedere che ci sono 2 righe duplicate nel DataFrame.

Possiamo usare la seguente sintassi per visualizzare queste 2 righe duplicate:

 #display duplicated rows
df[df. duplicated ()]

        team position points
1 A G 5
7 B F 10

Esempio 3: contare i duplicati per ogni riga univoca

Il codice seguente mostra come contare il numero di duplicati per ogni riga univoca nel DataFrame:

 #display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()

        team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1

La colonna Dimensioni mostra il numero di duplicati per ogni riga univoca.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre operazioni comuni nei panda:

Come rimuovere le righe duplicate in Pandas
Come rimuovere le colonne duplicate in Pandas
Come selezionare le colonne per indice in Pandas

Aggiungi un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *