Cara menghitung duplikat di r: dengan contoh


Anda dapat menggunakan metode berikut untuk menghitung duplikat dalam bingkai data di R:

Metode 1: Hitung nilai duplikat dalam kolom

 sum(duplicated(df$my_column))

Metode 2: Hitung baris duplikat

 nrow(df[duplicated(df), ])

Metode 3: Hitung duplikat untuk setiap baris unik

 library (dplyr)

df %>% group_by_all() %>% count

Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan kerangka data berikut di R:

 #create data frame
df = data. frame (team=c('A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'),
                position=c('G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'),
                points=c(5, 5, 8, 10, 5, 7, 10, 10))

#view data frame
df

  team position points
1 GA 5
2 AG 5
3 AG 8
4 AF 10
5 BG 5
6 BG 7
7 BF 10
8 BF 10

Contoh 1: Hitung nilai duplikat dalam sebuah kolom

Kode berikut menunjukkan cara menghitung jumlah nilai duplikat pada kolom poin :

 #count number of duplicate values in points column
sum(duplicated(df$points))

[1] 4

Terlihat ada 4 nilai duplikat pada kolom poin .

Contoh 2: Hitung baris duplikat

Kode berikut menunjukkan cara menghitung jumlah baris duplikat dalam bingkai data:

 #count number of duplicate rows
nrow(df[duplicated(df), ])

[1] 2

Kita dapat melihat ada 2 baris duplikat di frame data.

Kita dapat menggunakan sintaks berikut untuk menampilkan 2 baris duplikat ini:

 #display duplicated rows
df[duplicated(df), ]

  team position points
2 AG 5
8 BF 10

Contoh 3: Hitung duplikat untuk setiap baris unik

Kode berikut menunjukkan cara menghitung jumlah duplikat untuk setiap baris unik dalam bingkai data:

 library (dplyr)

#count number of duplicate rows in data frame
df %>% group_by_all() %>% count

# A tibble: 6 x 4
# Groups: team, position, points [6]
  team position points n
         
1 AF 10 1
2 AG 5 2
3 GA 8 1
4 BF 10 2
5 BG 5 1
6 BG 7 1

Kolom n menampilkan jumlah duplikat untuk setiap baris unik.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan tugas umum lainnya di R:

Cara menemukan elemen duplikat menggunakan dplyr
Cara menghapus baris duplikat di R
Cara menghilangkan baris duplikat di R agar tidak ada lagi yang tersisa

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *