Як підрахувати дублікати в r: з прикладами

за Редакція 14 Липня, 2023 Гід 0 коментарів

Ви можете використовувати наступні методи для підрахунку дублікатів у кадрі даних у R:

Спосіб 1: Підрахуйте повторювані значення в стовпці

 sum(duplicated(df$my_column))

Спосіб 2: підрахунок повторюваних рядків

 nrow(df[duplicated(df), ])

Спосіб 3: підрахунок дублікатів для кожного унікального рядка

 library (dplyr)

df %>% group_by_all() %>% count

У наведених нижче прикладах показано, як використовувати кожен метод на практиці з таким кадром даних у R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Приклад 1: підрахунок повторюваних значень у стовпці

Наступний код показує, як підрахувати кількість повторюваних значень у стовпці балів :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Ми бачимо, що в стовпці балів є 4 повторюваних значення.

Приклад 2: підрахунок повторюваних рядків

Наступний код показує, як підрахувати кількість повторюваних рядків у кадрі даних:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Ми бачимо, що у кадрі даних є 2 повторювані рядки.

Ми можемо використати такий синтаксис, щоб відобразити ці 2 повторювані рядки:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Приклад 3: підрахунок дублікатів для кожного унікального рядка

Наступний код показує, як підрахувати кількість дублікатів для кожного унікального рядка у кадрі даних:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

Стовпець n відображає кількість дублікатів для кожного унікального рядка.

Додаткові ресурси

У наступних посібниках пояснюється, як виконувати інші типові завдання в R:

Як знайти повторювані елементи за допомогою dplyr
Як видалити повторювані рядки в R
Як видалити повторювані рядки в R, щоб їх не залишилося

Про автора

Редакція

Привіт, я Бенджамін, професор статистики на пенсії, який став викладачем статистики. Маючи великий досвід і знання в галузі статистики, я готовий поділитися своїми знаннями, щоб розширити можливості студентів через Statorials. Дізнайтеся більше