Cara menemukan duplikat di pandas dataframe (dengan contoh)
Anda dapat menggunakan fungsi duplikat() untuk menemukan nilai duplikat di DataFrame pandas.
Fungsi ini menggunakan sintaks dasar berikut:
#find duplicate rows across all columns duplicateRows = df[df. duplicated ()] #find duplicate rows across specific columns duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]
Contoh berikut menunjukkan cara menggunakan fungsi ini dalam praktik dengan pandas DataFrame berikut:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' points ': [10, 10, 12, 12, 15, 17, 20, 20], ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]}) #view DataFrame print (df) team points assists 0 to 10 5 1 to 10 5 2 to 12 7 3 to 12 9 4 B 15 12 5 B 17 9 6 B 20 6 7 B 20 6
Contoh 1: Temukan baris duplikat di semua kolom
Kode berikut menunjukkan cara menemukan baris duplikat di semua kolom DataFrame:
#identify duplicate rows
duplicateRows = df[df. duplicated ()]
#view duplicate rows
duplicateRows
team points assists
1 to 10 5
7 B 20 6
Ada dua baris yang merupakan duplikat persis dari baris lain di DataFrame.
Perhatikan bahwa kita juga dapat menggunakan argumen keep=’last’ untuk menampilkan baris duplikat pertama, bukan baris terakhir:
#identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]
#view duplicate rows
print (duplicateRows)
team points assists
0 to 10 5
6 B 20 6
Contoh 2: Temukan baris duplikat di kolom tertentu
Kode berikut menunjukkan cara menemukan baris duplikat hanya di kolom “tim” dan “poin” pada DataFrame:
#identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
3 to 12 9
7 B 20 6
Ada tiga baris yang nilai pada kolom “tim” dan “poin” sama persis dengan baris sebelumnya.
Contoh 3: Temukan baris duplikat dalam sebuah kolom
Kode berikut menunjukkan cara menemukan baris duplikat hanya di kolom “tim” DataFrame:
#identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6
Ada total enam baris yang nilai pada kolom “tim” sama persis dengan baris sebelumnya.
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:
Cara menghapus baris duplikat di Pandas
Cara menghapus kolom duplikat di Pandas
Cara memilih kolom berdasarkan indeks di Pandas