Как посчитать дубликаты в r: с примерами


Вы можете использовать следующие методы для подсчета дубликатов во фрейме данных в R:

Способ 1: подсчитайте повторяющиеся значения в столбце

 sum(duplicated(df$my_column))

Способ 2. Подсчитайте повторяющиеся строки.

 nrow(df[duplicated(df), ])

Способ 3. Подсчитайте дубликаты для каждой уникальной строки.

 library (dplyr)

df %>% group_by_all() %>% count

В следующих примерах показано, как использовать каждый метод на практике со следующим фреймом данных в R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Пример 1. Подсчет повторяющихся значений в столбце

Следующий код показывает, как подсчитать количество повторяющихся значений в столбце точек :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Мы видим, что в столбце точек есть 4 повторяющихся значения.

Пример 2. Подсчет повторяющихся строк

Следующий код показывает, как подсчитать количество повторяющихся строк во фрейме данных:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Мы видим, что во фрейме данных есть две повторяющиеся строки.

Мы можем использовать следующий синтаксис для отображения этих двух повторяющихся строк:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Пример 3. Подсчет дубликатов для каждой уникальной строки

Следующий код показывает, как подсчитать количество дубликатов для каждой уникальной строки во фрейме данных:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

Столбец n отображает количество дубликатов для каждой уникальной строки.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в R:

Как найти повторяющиеся элементы с помощью dplyr
Как удалить повторяющиеся строки в R
Как удалить повторяющиеся строки в R, чтобы их не осталось

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *