Cara menghapus baris duplikat di pandas dataframe


Cara termudah untuk menghapus baris duplikat di pandas DataFrame adalah dengan menggunakan fungsi drop_duplications() , yang menggunakan sintaks berikut:

df.drop_duplikat(subset=Tidak ada, simpan=’pertama’, inplace=False)

Emas:

  • subset: kolom mana yang harus diperhitungkan untuk mengidentifikasi duplikat. Standarnya adalah semua kolom.
  • keep: Menentukan duplikat mana (jika ada) yang akan disimpan.
    • pertama: Hapus semua baris duplikat kecuali yang pertama.
    • terakhir: menghapus semua baris duplikat kecuali yang terakhir.
    • Salah : Hapus semua duplikat.
  • inplace: Menunjukkan apakah akan menghapus duplikat di tempatnya atau mengembalikan salinan DataFrame.

Tutorial ini memberikan beberapa contoh penggunaan praktis fungsi ini pada DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

Contoh 1: Hapus duplikat di semua kolom

Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat di semua kolom:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

Secara default, fungsi drop_duplications() menghapus semua duplikat kecuali yang pertama.

Namun, kita dapat menggunakan argumen keep=False untuk menghapus seluruh duplikat:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

Contoh 2: Hapus duplikat di kolom tertentu

Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat hanya di kolom berlabel tim dan poin :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

Sumber daya tambahan

Cara menghapus kolom duplikat di Pandas
Cara mengurutkan nilai dalam Pandas DataFrame
Cara memfilter Pandas DataFrame pada berbagai kondisi
Cara memasukkan kolom ke dalam Pandas DataFrame

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *