Cara menemukan duplikat di pandas dataframe (dengan contoh)


Anda dapat menggunakan fungsi duplikat() untuk menemukan nilai duplikat di DataFrame pandas.

Fungsi ini menggunakan sintaks dasar berikut:

 #find duplicate rows across all columns
duplicateRows = df[df. duplicated ()]

#find duplicate rows across specific columns
duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]

Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   ' points ': [10, 10, 12, 12, 15, 17, 20, 20],
                   ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]})

#view DataFrame
print (df)

  team points assists
0 to 10 5
1 to 10 5
2 to 12 7
3 to 12 9
4 B 15 12
5 B 17 9
6 B 20 6
7 B 20 6

Contoh 1: Temukan baris duplikat di semua kolom

Kode berikut menunjukkan cara menemukan baris duplikat di semua kolom DataFrame:

 #identify duplicate rows
duplicateRows = df[df. duplicated ()]

#view duplicate rows
duplicateRows

        team points assists
1 to 10 5
7 B 20 6

Ada dua baris yang merupakan duplikat persis dari baris lain di DataFrame.

Perhatikan bahwa kita juga dapat menggunakan argumen keep=’last’ untuk menampilkan baris duplikat pertama, bukan baris terakhir:

 #identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]

#view duplicate rows
print (duplicateRows)

	team points assists
0 to 10 5
6 B 20 6

Contoh 2: Temukan baris duplikat di kolom tertentu

Kode berikut menunjukkan cara menemukan baris duplikat hanya di kolom “tim” dan “poin” pada DataFrame:

 #identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]

#view duplicate rows
print (duplicateRows)

        team points assists
1 to 10 5
3 to 12 9
7 B 20 6

Ada tiga baris yang nilai pada kolom “tim” dan “poin” sama persis dengan baris sebelumnya.

Contoh 3: Temukan baris duplikat dalam sebuah kolom

Kode berikut menunjukkan cara menemukan baris duplikat hanya di kolom “tim” DataFrame:

 #identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]

#view duplicate rows
print (duplicateRows)

	team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6

Ada total enam baris yang nilai pada kolom “tim” sama persis dengan baris sebelumnya.

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Cara menghapus baris duplikat di Pandas
Cara menghapus kolom duplikat di Pandas
Cara memilih kolom berdasarkan indeks di Pandas

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *