Hoe duplicaten in panda's te tellen: met voorbeelden
U kunt de volgende methoden gebruiken om duplicaten in een Panda DataFrame te tellen:
Methode 1: Tel dubbele waarden in een kolom
len (df[' my_column ']) - len (df[' my_column ']. drop_duplicates ())
Methode 2: Tel dubbele rijen
len (df) -len ( df.drop_duplicates ())
Methode 3: Tel duplicaten voor elke unieke rij
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'], ' position ': ['G', 'G', 'G', 'F', 'G', 'G', 'F', 'F'], ' points ': [5, 5, 8, 10, 5, 7, 10, 10]}) #view DataFrame print (df) team position points 0 AG 5 1 GA 5 2 AG 8 3 AF 10 4 BG 5 5 BG 7 6 BF 10 7 BF 10
Voorbeeld 1: Tel dubbele waarden in een kolom
De volgende code laat zien hoe u het aantal dubbele waarden in de puntenkolom telt:
#count duplicate values in points column
len (df[' points '])- len (df[' points ']. drop_duplicates ())
4
We kunnen zien dat er 4 dubbele waarden in de puntenkolom staan.
Voorbeeld 2: Tel dubbele rijen
De volgende code laat zien hoe u het aantal dubbele rijen in het DataFrame telt:
#count number of duplicate rows
len (df) -len ( df.drop_duplicates ())
2
We kunnen zien dat er twee dubbele rijen in het DataFrame zijn.
We kunnen de volgende syntaxis gebruiken om deze 2 dubbele regels weer te geven:
#display duplicated rows
df[df. duplicated ()]
team position points
1 A G 5
7 B F 10
Voorbeeld 3: Tel duplicaten voor elke unieke rij
De volgende code laat zien hoe u het aantal duplicaten voor elke unieke rij in het DataFrame telt:
#display number of duplicates for each unique row
df. groupby ( df.columns.tolist (), as_index= False ) . size ()
team position points size
0 A F 10 1
1 A G 5 2
2 A G 8 1
3 B F 10 2
4 B G 5 1
5 B G 7 1
In de kolom Grootte wordt het aantal duplicaten voor elke unieke rij weergegeven.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Hoe dubbele rijen in Panda’s te verwijderen
Hoe dubbele kolommen in Pandas te verwijderen
Hoe u kolommen op index selecteert in Pandas