Como contar duplicatas em r: com exemplos


Você pode usar os seguintes métodos para contar duplicatas em um quadro de dados em R:

Método 1: contar valores duplicados em uma coluna

 sum(duplicated(df$my_column))

Método 2: contar linhas duplicadas

 nrow(df[duplicated(df), ])

Método 3: contar duplicatas para cada linha exclusiva

 library (dplyr)

df %>% group_by_all() %>% count

Os exemplos a seguir mostram como usar cada método na prática com o seguinte quadro de dados em R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Exemplo 1: contar valores duplicados em uma coluna

O código a seguir mostra como contar o número de valores duplicados na coluna de pontos :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Podemos ver que existem 4 valores duplicados na coluna de pontos .

Exemplo 2: contar linhas duplicadas

O código a seguir mostra como contar o número de linhas duplicadas no quadro de dados:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Podemos ver que existem 2 linhas duplicadas no quadro de dados.

Podemos usar a seguinte sintaxe para exibir essas 2 linhas duplicadas:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Exemplo 3: contar duplicatas para cada linha exclusiva

O código a seguir mostra como contar o número de duplicatas para cada linha exclusiva no quadro de dados:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

A coluna n exibe o número de duplicatas para cada linha exclusiva.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:

Como encontrar elementos duplicados usando dplyr
Como remover linhas duplicadas em R
Como remover linhas duplicadas em R para que não reste nenhuma

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *