Come contare i duplicati in r: con esempi

Di Benjamin anderson Luglio 14, 2023 Guida 0 commenti

È possibile utilizzare i seguenti metodi per contare i duplicati in un frame di dati in R:

Metodo 1: conta i valori duplicati in una colonna

 sum(duplicated(df$my_column))

Metodo 2: contare le righe duplicate

 nrow(df[duplicated(df), ])

Metodo 3: conta i duplicati per ogni riga univoca

 library (dplyr)

df %>% group_by_all() %>% count

I seguenti esempi mostrano come utilizzare ciascun metodo nella pratica con il seguente frame di dati in R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Esempio 1: conta i valori duplicati in una colonna

Il codice seguente mostra come contare il numero di valori duplicati nella colonna dei punti :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Possiamo vedere che ci sono 4 valori duplicati nella colonna dei punti .

Esempio 2: contare le righe duplicate

Il codice seguente mostra come contare il numero di righe duplicate nel frame di dati:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Possiamo vedere che ci sono 2 righe duplicate nel frame di dati.

Possiamo usare la seguente sintassi per visualizzare queste 2 righe duplicate:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Esempio 3: contare i duplicati per ogni riga univoca

Il codice seguente mostra come contare il numero di duplicati per ogni riga univoca nel frame di dati:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

La colonna n mostra il numero di duplicati per ogni riga univoca.

Risorse addizionali

I seguenti tutorial spiegano come eseguire altre attività comuni in R:

Come trovare elementi duplicati usando dplyr
Come rimuovere le righe duplicate in R
Come rimuovere le righe duplicate in R in modo che non ne rimanga nessuna

Informazioni sull'autore

Benjamin anderson

Ciao, sono Benjamin, un professore di statistica in pensione diventato insegnante dedicato di Statorials. Con una vasta esperienza e competenza nel campo della statistica, sono ansioso di condividere le mie conoscenze per potenziare gli studenti attraverso Statorials. Scopri di più