Cara menghapus baris duplikat di pandas dataframe
Cara termudah untuk menghapus baris duplikat di pandas DataFrame adalah dengan menggunakan fungsi drop_duplications() , yang menggunakan sintaks berikut:
df.drop_duplikat(subset=Tidak ada, simpan=’pertama’, inplace=False)
Emas:
- subset: kolom mana yang harus diperhitungkan untuk mengidentifikasi duplikat. Standarnya adalah semua kolom.
- keep: Menentukan duplikat mana (jika ada) yang akan disimpan.
- pertama: Hapus semua baris duplikat kecuali yang pertama.
- terakhir: menghapus semua baris duplikat kecuali yang terakhir.
- Salah : Hapus semua duplikat.
- inplace: Menunjukkan apakah akan menghapus duplikat di tempatnya atau mengembalikan salinan DataFrame.
Tutorial ini memberikan beberapa contoh penggunaan praktis fungsi ini pada DataFrame berikut:
import pandas as pd #createDataFrame df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'], 'points': [3, 7, 7, 8, 8, 9], 'assists': [8, 6, 7, 9, 9, 3]}) #display DataFrame print (df) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 d 9 3
Contoh 1: Hapus duplikat di semua kolom
Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat di semua kolom:
df. drop_duplicates ()
team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3
Secara default, fungsi drop_duplications() menghapus semua duplikat kecuali yang pertama.
Namun, kita dapat menggunakan argumen keep=False untuk menghapus seluruh duplikat:
df. drop_duplicates (keep= False ) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 5 d 9 3
Contoh 2: Hapus duplikat di kolom tertentu
Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat hanya di kolom berlabel tim dan poin :
df. drop_duplicates (subset=[' team ', ' points ']) team points assists 0 to 3 8 1 b 7 6 3 c 8 9 5 d 9 3
Sumber daya tambahan
Cara menghapus kolom duplikat di Pandas
Cara mengurutkan nilai dalam Pandas DataFrame
Cara memfilter Pandas DataFrame pada berbagai kondisi
Cara memasukkan kolom ke dalam Pandas DataFrame