如何计算 r 中的重复项:示例


您可以使用以下方法来计算 R 中数据框中的重复项:

方法一:统计列中的重复值

 sum(duplicated(df$my_column))

方法 2:计算重复行

 nrow(df[duplicated(df), ])

方法 3:计算每个唯一行的重复项

 library (dplyr)

df %>% group_by_all() %>% count

以下示例展示了如何在 R 中使用以下数据框实际使用每种方法:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

示例1:计算列中的重复值

下面的代码展示了如何计算points列中重复值的数量:

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

我们可以看到points列中有4个重复值。

示例 2:计算重复行数

以下代码显示了如何计算数据框中重复行的数量:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

我们可以看到数据框中有2 个重复行。

我们可以使用以下语法来显示这 2 个重复行:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

示例 3:计算每个唯一行的重复项

以下代码显示如何计算数据框中每个唯一行的重复项数:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

n列显示每个唯一行的重复项数。

其他资源

以下教程解释了如何在 R 中执行其他常见任务:

如何使用 dplyr 查找重复元素
如何删除R中的重复行
如何删除 R 中的重复行以便不留下任何重复行

添加评论

您的电子邮箱地址不会被公开。 必填项已用*标注