Pandas: so entfernen sie duplikate in mehreren spalten


Sie können die folgenden Methoden verwenden, um doppelte Zeilen über mehrere Spalten in einem Pandas-DataFrame zu entfernen:

Methode 1: Duplikate in allen Spalten entfernen

 df. drop_duplicates ()

Methode 2: Duplikate in bestimmten Spalten entfernen

 df. drop_duplicates ([' column1 ',' column3 '])

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Beispiel 1: Duplikate in allen Spalten entfernen

Der folgende Code zeigt, wie Zeilen mit doppelten Werten in allen Spalten entfernt werden:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Die Zeile an Indexposition 1 hatte in allen Spalten die gleichen Werte wie die Zeile an Indexposition 0 und wurde daher aus dem DataFrame entfernt.

Standardmäßig behält Pandas die erste Zeile als Duplikat bei. Sie können jedoch das Argument keep verwenden, um anzugeben, dass die letzte doppelte Zeile beibehalten werden soll:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Beispiel 2: Duplikate in bestimmten Spalten entfernen

Sie können den folgenden Code verwenden, um Zeilen mit doppelten Werten nur in den Regions- und Speicherspalten zu entfernen:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

Insgesamt wurden zwei Zeilen aus dem DataFrame entfernt, da sie doppelte Werte in den Spalten „ Region “ und „Store“ enthielten.

Hinweis : Die vollständige Dokumentation zur Funktion drop_duplicates() finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

So finden Sie Duplikate in Pandas
So entfernen Sie doppelte Spalten in Pandas
So entfernen Sie die erste Zeile in Pandas DataFrame

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert