So entfernen sie doppelte zeilen in einem pandas dataframe
Der einfachste Weg, doppelte Zeilen in einem Pandas-DataFrame zu entfernen, ist die Verwendung der Funktion drop_duplicates() , die die folgende Syntax verwendet:
df.drop_duplicates(subset=None, keep=’first‘, inplace=False)
Gold:
- Teilmenge: welche Spalten berücksichtigt werden müssen, um Duplikate zu identifizieren. Der Standardwert sind alle Spalten.
- keep: Gibt an, welche Duplikate (falls vorhanden) aufbewahrt werden sollen.
- first: Alle doppelten Zeilen außer der ersten entfernen.
- last: Entfernt alle doppelten Zeilen außer der letzten.
- Falsch : Alle Duplikate entfernen.
- inplace: Gibt an, ob Duplikate an Ort und Stelle entfernt oder eine Kopie des DataFrame zurückgegeben werden sollen.
Dieses Tutorial bietet mehrere Beispiele für die praktische Verwendung dieser Funktion im folgenden DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'], 'points': [3, 7, 7, 8, 8, 9], 'assists': [8, 6, 7, 9, 9, 3]}) #display DataFrame print (df) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 3 c 8 9 4 c 8 9 5 d 9 3
Beispiel 1: Duplikate in allen Spalten entfernen
Der folgende Code zeigt, wie Zeilen mit doppelten Werten in allen Spalten entfernt werden:
df. drop_duplicates ()
team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3
Standardmäßig entfernt die Funktion drop_duplicates() alle Duplikate außer dem ersten.
Wir könnten jedoch das Argument keep=False verwenden, um alle Duplikate vollständig zu entfernen:
df. drop_duplicates (keep= False ) team points assists 0 to 3 8 1 b 7 6 2 b 7 7 5 d 9 3
Beispiel 2: Duplikate in bestimmten Spalten entfernen
Der folgende Code zeigt, wie Zeilen mit doppelten Werten nur in den Spalten mit der Bezeichnung Team und Punkte entfernt werden:
df. drop_duplicates (subset=[' team ', ' points ']) team points assists 0 to 3 8 1 b 7 6 3 c 8 9 5 d 9 3
Zusätzliche Ressourcen
So entfernen Sie doppelte Spalten in Pandas
So sortieren Sie Werte in einem Pandas DataFrame
So filtern Sie einen Pandas DataFrame nach mehreren Bedingungen
So fügen Sie eine Spalte in einen Pandas DataFrame ein