So zählen sie duplikate in pandas: mit beispielen
Sie können die folgenden Methoden verwenden, um Duplikate in einem Pandas-DataFrame zu zählen:
Methode 1: Zählen Sie doppelte Werte in einer Spalte
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
Methode 2: Zählen Sie doppelte Zeilen
len (df) -len ( df.drop_duplicates ())
Methode 3: Duplikate für jede eindeutige Zeile zählen
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
Die folgenden Beispiele zeigen, wie jede Methode in der Praxis mit dem folgenden Pandas DataFrame verwendet wird:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
Beispiel 1: Zählen Sie doppelte Werte in einer Spalte
Der folgende Code zeigt, wie die Anzahl der doppelten Werte in der Punktespalte gezählt wird:
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
Wir können sehen, dass die Punktespalte 4 doppelte Werte enthält.
Beispiel 2: Doppelte Zeilen zählen
Der folgende Code zeigt, wie die Anzahl der doppelten Zeilen im DataFrame gezählt wird:
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
Wir können sehen, dass es im DataFrame zwei doppelte Zeilen gibt.
Wir können die folgende Syntax verwenden, um diese beiden doppelten Zeilen anzuzeigen:
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
Beispiel 3: Duplikate für jede eindeutige Zeile zählen
Der folgende Code zeigt, wie die Anzahl der Duplikate für jede eindeutige Zeile im DataFrame gezählt wird:
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
In der Spalte „Größe“ wird die Anzahl der Duplikate für jede eindeutige Zeile angezeigt.
Zusätzliche Ressourcen
In den folgenden Tutorials wird erläutert, wie andere gängige Vorgänge in Pandas ausgeführt werden:
So entfernen Sie doppelte Zeilen in Pandas
So entfernen Sie doppelte Spalten in Pandas
So wählen Sie Spalten nach Index in Pandas aus