Cara menghitung duplikat di r: dengan contoh
Anda dapat menggunakan metode berikut untuk menghitung duplikat dalam bingkai data di R:
Metode 1: Hitung nilai duplikat dalam kolom
sum(duplicated(df$my_column))
Metode 2: Hitung baris duplikat
nrow(df[duplicated(df), ])
Metode 3: Hitung duplikat untuk setiap baris unik
library (dplyr)
df %>% group_by_all() %>% count
Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan kerangka data berikut di R:
#create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
points=c(5, 5, 8, 10, 5, 7, 10, 10))
#view data frame
df
team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10
Contoh 1: Hitung nilai duplikat dalam sebuah kolom
Kode berikut menunjukkan cara menghitung jumlah nilai duplikat pada kolom poin :
#count number of duplicate values in points column
sum(duplicated(df$points))
[1] 4
Terlihat ada 4 nilai duplikat pada kolom poin .
Contoh 2: Hitung baris duplikat
Kode berikut menunjukkan cara menghitung jumlah baris duplikat dalam bingkai data:
#count number of duplicate rows
nrow(df[duplicated(df), ])
[1] 2
Kita dapat melihat ada 2 baris duplikat di frame data.
Kita dapat menggunakan sintaks berikut untuk menampilkan 2 baris duplikat ini:
#display duplicated rows
df[duplicated(df), ]
team position points
2 AG 5
8 BF 10
Contoh 3: Hitung duplikat untuk setiap baris unik
Kode berikut menunjukkan cara menghitung jumlah duplikat untuk setiap baris unik dalam bingkai data:
library (dplyr)
#count number of duplicate rows in data frame
df %>% group_by_all() %>% count
# A tibble: 6 x 4
# Groups: team, position, points [6]
team position points n
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1
Kolom n menampilkan jumlah duplikat untuk setiap baris unik.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:
Cara menemukan elemen duplikat menggunakan dplyr
Cara menghapus baris duplikat di R
Cara menghilangkan baris duplikat di R agar tidak ada lagi yang tersisa