Pandas: cara menghapus duplikat di banyak kolom
Anda dapat menggunakan metode berikut untuk menghapus baris duplikat di beberapa kolom di pandas DataFrame:
Metode 1: Hapus duplikat di semua kolom
df. drop_duplicates ()
Metode 2: Hapus duplikat di kolom tertentu
df. drop_duplicates ([' column1 ',' column3 '])
Contoh berikut menunjukkan cara menggunakan setiap metode dalam praktik dengan pandas DataFrame berikut:
import pandas as pd #createDataFrame df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'], ' store ': [1, 1, 2, 1, 2, 2], ' sales ': [5, 5, 7, 9, 12, 8]}) #view DataFrame print (df) region store sales 0 East 1 5 1 East 1 5 2 East 2 7 3 West 1 9 4 West 2 12 5 West 2 8
Contoh 1: Hapus duplikat di semua kolom
Kode berikut menunjukkan cara menghapus baris dengan nilai duplikat di semua kolom:
#drop rows that have duplicate values across all columns
df. drop_duplicates ()
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
Baris pada posisi indeks 1 memiliki nilai yang sama di semua kolom dengan baris pada posisi indeks 0, sehingga dihapus dari DataFrame.
Secara default, panda menyimpan baris pertama sebagai duplikat. Namun, Anda dapat menggunakan argumen keep untuk menentukan agar baris duplikat terakhir dipertahankan:
#drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')
region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
Contoh 2: Hapus duplikat di kolom tertentu
Anda dapat menggunakan kode berikut untuk menghapus baris dengan nilai duplikat hanya di kolom wilayah dan penyimpanan :
#drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
Secara total, dua baris telah dihapus dari DataFrame karena berisi nilai duplikat di kolom Wilayah dan Penyimpanan .
Catatan : Anda dapat menemukan dokumentasi lengkap untuk fungsi drop_duplications() di sini .
Sumber daya tambahan
Tutorial berikut menjelaskan cara melakukan operasi umum lainnya di panda:
Cara menemukan duplikat di panda
Cara menghapus kolom duplikat di Pandas
Cara menghapus baris pertama di Pandas DataFrame