Jak liczyć duplikaty w r: z przykładami
Do zliczania duplikatów w ramce danych w R można użyć następujących metod:
Metoda 1: Policz zduplikowane wartości w kolumnie
sum(duplicated(df$my_column))
Metoda 2: Policz zduplikowane wiersze
nrow(df[duplicated(df), ])
Metoda 3: Policz duplikaty dla każdego unikalnego wiersza
library (dplyr)
df %>% group_by_all() %>% count
Poniższe przykłady pokazują, jak w praktyce wykorzystać każdą metodę z następującą ramką danych w R:
#create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10
Przykład 1: Zlicz zduplikowane wartości w kolumnie
Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wartości w kolumnie punktów :
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
Widzimy, że w kolumnie punktów znajdują się 4 zduplikowane wartości.
Przykład 2: Policz zduplikowane wiersze
Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wierszy w ramce danych:
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
Widzimy, że w ramce danych znajdują się 2 zduplikowane wiersze.
Możemy użyć następującej składni, aby wyświetlić te 2 zduplikowane linie:
#display duplicated rows
df[duplicated(df), ]
team position points
2 AG 5
8 BF 10
Przykład 3: Policz duplikaty dla każdego unikalnego wiersza
Poniższy kod pokazuje, jak policzyć liczbę duplikatów dla każdego unikalnego wiersza w ramce danych:
library (dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1
Kolumna n wyświetla liczbę duplikatów dla każdego unikalnego wiersza.
Dodatkowe zasoby
Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:
Jak znaleźć zduplikowane elementy za pomocą dplyr
Jak usunąć zduplikowane linie w R
Jak usunąć zduplikowane linie w R, aby nie pozostały żadne