Pandas: cara menghapus duplikat di banyak kolom


Anda dapat menggunakan metode berikut untuk menghapus baris duplikat di beberapa kolom di pandas DataFrame:

Metode 1: Hapus duplikat di semua kolom

 df. drop_duplicates ()

Metode 2: Hapus duplikat di kolom tertentu

 df. drop_duplicates ([' column1 ',' column3 '])

Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Contoh 1: Hapus duplikat di semua kolom

Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat di semua kolom:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Baris pada posisi indeks 1 memiliki nilai yang sama di semua kolom dengan baris pada posisi indeks 0, sehingga dihapus dari DataFrame.

Secara default, panda menyimpan baris pertama sebagai duplikat. Namun, Anda dapat menggunakan argumen keep untuk menentukan agar baris duplikat terakhir dipertahankan:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Contoh 2: Hapus duplikat di kolom tertentu

Anda dapat menggunakan kode berikut untuk menghapus baris dengan nilai duplikat hanya di kolom wilayah dan penyimpanan :

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

Secara total, dua baris telah dihapus dari DataFrame karena berisi nilai duplikat di kolom Wilayah dan Penyimpanan .

Catatan : Anda dapat menemukan dokumentasi lengkap untuk fungsi drop_duplications() di sini .

Sumber daya tambahan

Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:

Cara menemukan duplikat di panda
Cara menghapus kolom duplikat di Pandas
Cara menghapus baris pertama di Pandas DataFrame

Tambahkan komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *