Cara menghitung duplikat di panda: dengan contoh


Anda dapat menggunakan metode berikut untuk menghitung duplikat di pandas DataFrame:

Metode 1: Hitung nilai duplikat dalam kolom

 len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())

Metode 2: Hitung baris duplikat

 len (df) -len ( df.drop_duplicates ())

Metode 3: Hitung duplikat untuk setiap baris unik

 df. groupby ( df.columns.tolist (), as_index= False ) . size ()

Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'],
                   ' points ': [5, 5, 8, 10, 5, 7, 10, 10]})

#view DataFrame
print (df)

  team position points
0 AG 5
1 GA 5
2 AG 8
3 AF 10
4 BG 5
5 BG 7
6 BF 10
7 BF 10

Contoh 1: Hitung nilai duplikat dalam sebuah kolom

Kode berikut menunjukkan cara menghitung jumlah nilai duplikat pada kolom poin :

 #count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())

4

Terlihat ada 4 nilai duplikat pada kolom poin .

Contoh 2: Hitung baris duplikat

Kode berikut menunjukkan cara menghitung jumlah baris duplikat di DataFrame:

 #count number of duplicate rows
len (df) -len ( df.drop_duplicates ())

2

Kita dapat melihat ada 2 baris duplikat di DataFrame.

Kita dapat menggunakan sintaks berikut untuk menampilkan 2 baris duplikat ini:

 #display duplicated rows
df[df. duplicated ()]

        team position points
1 A G 5
7 B F 10

Contoh 3: Hitung duplikat untuk setiap baris unik

Kode berikut menunjukkan cara menghitung jumlah duplikat untuk setiap baris unik di DataFrame:

 #display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()

        team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1

Kolom Ukuran menampilkan jumlah duplikat untuk setiap baris unik.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Cara menghapus baris duplikat di Pandas
Cara menghapus kolom duplikat di Pandas
Cara memilih kolom berdasarkan indeks di Pandas

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *