Como contar duplicatas em r: com exemplos
Você pode usar os seguintes métodos para contar duplicatas em um quadro de dados em R:
Método 1: contar valores duplicados em uma coluna
sum(duplicated(df$my_column))
Método 2: contar linhas duplicadas
nrow(df[duplicated(df), ])
Método 3: contar duplicatas para cada linha exclusiva
library (dplyr)
df %>% group_by_all() %>% count
Os exemplos a seguir mostram como usar cada método na prática com o seguinte quadro de dados em R:
#create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10
Exemplo 1: contar valores duplicados em uma coluna
O código a seguir mostra como contar o número de valores duplicados na coluna de pontos :
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
Podemos ver que existem 4 valores duplicados na coluna de pontos .
Exemplo 2: contar linhas duplicadas
O código a seguir mostra como contar o número de linhas duplicadas no quadro de dados:
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
Podemos ver que existem 2 linhas duplicadas no quadro de dados.
Podemos usar a seguinte sintaxe para exibir essas 2 linhas duplicadas:
#display duplicated rows
df[duplicated(df), ]
team position points
2 AG 5
8 BF 10
Exemplo 3: contar duplicatas para cada linha exclusiva
O código a seguir mostra como contar o número de duplicatas para cada linha exclusiva no quadro de dados:
library (dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1
A coluna n exibe o número de duplicatas para cada linha exclusiva.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em R:
Como encontrar elementos duplicados usando dplyr
Como remover linhas duplicadas em R
Como remover linhas duplicadas em R para que não reste nenhuma