Pandas: so entfernen sie duplikate in mehreren spalten

Von Dr. Benjamin Anderson Juli 21, 2023 Führung Keine Kommentare

Sie können die folgenden Methoden verwenden, um doppelte Zeilen über mehrere Spalten in einem Pandas-DataFrame zu entfernen:

Methode 1: Duplikate in allen Spalten entfernen

 df. drop_duplicates ()

Methode 2: Duplikate in bestimmten Spalten entfernen

 df. drop_duplicates ([' column1 ',' column3 '])

Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Beispiel 1: Duplikate in allen Spalten entfernen

Der folgende Code zeigt, wie Zeilen mit doppelten Werten in allen Spalten entfernt werden:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Die Zeile an Indexposition 1 hatte in allen Spalten die gleichen Werte wie die Zeile an Indexposition 0 und wurde daher aus dem DataFrame entfernt.

Standardmäßig behält Pandas die erste Zeile als Duplikat bei. Sie können jedoch das Argument keep verwenden, um anzugeben, dass die letzte doppelte Zeile beibehalten werden soll:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Beispiel 2: Duplikate in bestimmten Spalten entfernen

Sie können den folgenden Code verwenden, um Zeilen mit doppelten Werten nur in den Regions- und Speicherspalten zu entfernen:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

Insgesamt wurden zwei Zeilen aus dem DataFrame entfernt, da sie doppelte Werte in den Spalten „ Region “ und „Store“ enthielten.

Hinweis : Die vollständige Dokumentation zur Funktion drop_duplicates() finden Sie hier .

Zusätzliche Ressourcen

In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:

So finden Sie Duplikate in Pandas
So entfernen Sie doppelte Spalten in Pandas
So entfernen Sie die erste Zeile in Pandas DataFrame

Über den Autor

Dr. Benjamin Anderson

Hallo, ich bin Benjamin, ein pensionierter Statistikprofessor, der sich zum engagierten Statorials-Lehrer entwickelt hat. Mit umfassender Erfahrung und Fachwissen auf dem Gebiet der Statistik bin ich bestrebt, mein Wissen zu teilen, um Studenten durch Statorials zu befähigen. Mehr wissen

Beispiel 1: Duplikate in allen Spalten entfernen

Beispiel 2: Duplikate in bestimmten Spalten entfernen

Zusätzliche Ressourcen

Über den Autor

Dr. Benjamin Anderson

Einen Kommentar hinzufügen