Panda's: hoe u duplicaten op meerdere kolommen verwijdert
U kunt de volgende methoden gebruiken om dubbele rijen in meerdere kolommen in een pandas DataFrame te verwijderen:
Methode 1: Verwijder duplicaten in alle kolommen
df. drop_duplicates ()
Methode 2: Verwijder duplicaten in specifieke kolommen
df. drop_duplicates ([' column1 ',' column3 '])
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'], ' store ': [1, 1, 2, 1, 2, 2], ' sales ': [5, 5, 7, 9, 12, 8]}) #view DataFrame print (df) region store sales 0 East 1 5 1 East 1 5 2 East 2 7 3 West 1 9 4 West 2 12 5 West 2 8
Voorbeeld 1: Verwijder duplicaten in alle kolommen
De volgende code laat zien hoe u rijen met dubbele waarden in alle kolommen verwijdert:
#drop rows that have duplicate values across all columns
df. drop_duplicates ()
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
De rij op indexpositie 1 had in alle kolommen dezelfde waarden als de rij op indexpositie 0 en werd daarom uit het DataFrame verwijderd.
Standaard bewaart Panda de eerste regel als een duplicaat. U kunt echter het argument keep gebruiken om op te geven dat de laatste dubbele regel behouden moet blijven:
#drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')
region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8
Voorbeeld 2: Verwijder duplicaten in specifieke kolommen
U kunt de volgende code gebruiken om rijen met dubbele waarden alleen in de regio- en winkelkolommen te verwijderen:
#drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])
region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
In totaal zijn er twee rijen uit het DataFrame verwijderd omdat deze dubbele waarden bevatten in de kolommen Regio en Winkel .
Opmerking : u kunt de volledige documentatie voor de drop_duplicates() functie hier vinden.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:
Hoe duplicaten in panda’s te vinden
Hoe dubbele kolommen in Pandas te verwijderen
Hoe de eerste rij in Pandas DataFrame te verwijderen