So finden sie duplikate im pandas dataframe (mit beispielen)
Sie können die Funktion „duplicated()“ verwenden, um doppelte Werte in einem Pandas-DataFrame zu finden.
Diese Funktion verwendet die folgende grundlegende Syntax:
#find duplicate rows across all columns duplicateRows = df[df. duplicated ()] #find duplicate rows across specific columns duplicateRows = df[df. duplicated ([' col1 ',' col2 '])]
Die folgenden Beispiele zeigen, wie diese Funktion in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' points ': [10, 10, 12, 12, 15, 17, 20, 20], ' assists ': [5, 5, 7, 9, 12, 9, 6, 6]}) #view DataFrame print (df) team points assists 0 to 10 5 1 to 10 5 2 to 12 7 3 to 12 9 4 B 15 12 5 B 17 9 6 B 20 6 7 B 20 6
Beispiel 1: Finden Sie doppelte Zeilen in allen Spalten
Der folgende Code zeigt, wie Sie doppelte Zeilen in allen Spalten des DataFrame finden:
#identify duplicate rows
duplicateRows = df[df. duplicated ()]
#view duplicate rows
duplicateRows
team points assists
1 to 10 5
7 B 20 6
Es gibt zwei Zeilen, die exakte Duplikate anderer Zeilen im DataFrame sind.
Beachten Sie, dass wir auch das Argument keep=’last‘ verwenden können, um die ersten doppelten Zeilen anstelle der letzten anzuzeigen:
#identify duplicate rows
duplicateRows = df[df. duplicated (keep=' last ')]
#view duplicate rows
print (duplicateRows)
team points assists
0 to 10 5
6 B 20 6
Beispiel 2: Suchen Sie nach doppelten Zeilen in bestimmten Spalten
Der folgende Code zeigt, wie doppelte Zeilen nur in den Spalten „Team“ und „Punkte“ des DataFrame gefunden werden:
#identify duplicate rows across 'team' and 'points' columns
duplicateRows = df[df. duplicated ([' team ',' points '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
3 to 12 9
7 B 20 6
Es gibt drei Zeilen, in denen die Werte in den Spalten „Team“ und „Punkte“ exakte Kopien der vorherigen Zeilen sind.
Beispiel 3: Suchen Sie nach doppelten Zeilen in einer Spalte
Der folgende Code zeigt, wie doppelte Zeilen nur in der Spalte „team“ des DataFrame gefunden werden:
#identify duplicate rows in 'team' column
duplicateRows = df[df. duplicated ([' team '])]
#view duplicate rows
print (duplicateRows)
team points assists
1 to 10 5
2 to 12 7
3 to 12 9
5 B 17 9
6 B 20 6
7 B 20 6
Insgesamt gibt es sechs Zeilen, in denen die Werte in der Spalte „Team“ exakte Duplikate der vorherigen Zeilen sind.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
So entfernen Sie doppelte Zeilen in Pandas
So entfernen Sie doppelte Spalten in Pandas
So wählen Sie Spalten nach Index in Pandas aus