Jak liczyć duplikaty w r: z przykładami

Przez Benjamin Anderson 14 lipca, 2023 Przewodnik 0 komentarzy

Do zliczania duplikatów w ramce danych w R można użyć następujących metod:

Metoda 1: Policz zduplikowane wartości w kolumnie

 sum(duplicated(df$my_column))

Metoda 2: Policz zduplikowane wiersze

 nrow(df[duplicated(df), ])

Metoda 3: Policz duplikaty dla każdego unikalnego wiersza

 library (dplyr)

df %>% group_by_all() %>% count

Poniższe przykłady pokazują, jak w praktyce wykorzystać każdą metodę z następującą ramką danych w R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Przykład 1: Zlicz zduplikowane wartości w kolumnie

Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wartości w kolumnie punktów :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Widzimy, że w kolumnie punktów znajdują się 4 zduplikowane wartości.

Przykład 2: Policz zduplikowane wiersze

Poniższy kod pokazuje, jak policzyć liczbę zduplikowanych wierszy w ramce danych:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Widzimy, że w ramce danych znajdują się 2 zduplikowane wiersze.

Możemy użyć następującej składni, aby wyświetlić te 2 zduplikowane linie:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Przykład 3: Policz duplikaty dla każdego unikalnego wiersza

Poniższy kod pokazuje, jak policzyć liczbę duplikatów dla każdego unikalnego wiersza w ramce danych:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

Kolumna n wyświetla liczbę duplikatów dla każdego unikalnego wiersza.

Dodatkowe zasoby

Poniższe samouczki wyjaśniają, jak wykonywać inne typowe zadania w języku R:

Jak znaleźć zduplikowane elementy za pomocą dplyr
Jak usunąć zduplikowane linie w R
Jak usunąć zduplikowane linie w R, aby nie pozostały żadne

o autorze

Dr Benjamin Anderson

Cześć, jestem Benjamin i jestem emerytowanym profesorem statystyki, który został oddanym nauczycielem Statorials. Dzięki bogatemu doświadczeniu i wiedzy specjalistycznej w dziedzinie statystyki chętnie dzielę się swoją wiedzą, aby wzmocnić pozycję uczniów za pośrednictwem Statorials. Wiedzieć więcej