如何计算 r 中的重复项:示例
您可以使用以下方法来计算 R 中数据框中的重复项:
方法一:统计列中的重复值
sum(duplicated(df$my_column))
方法 2:计算重复行
nrow(df[duplicated(df), ])
方法 3:计算每个唯一行的重复项
library (dplyr)
df %>% group_by_all() %>% count
以下示例展示了如何在 R 中使用以下数据框实际使用每种方法:
#create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10
示例1:计算列中的重复值
下面的代码展示了如何计算points列中重复值的数量:
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
我们可以看到points列中有4个重复值。
示例 2:计算重复行数
以下代码显示了如何计算数据框中重复行的数量:
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
我们可以看到数据框中有2 个重复行。
我们可以使用以下语法来显示这 2 个重复行:
#display duplicated rows
df[duplicated(df), ]
team position points
2 AG 5
8 BF 10
示例 3:计算每个唯一行的重复项
以下代码显示如何计算数据框中每个唯一行的重复项数:
library (dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1
第n列显示每个唯一行的重复项数。
其他资源
以下教程解释了如何在 R 中执行其他常见任务: