Panda's: hoe u duplicaten op meerdere kolommen verwijdert


U kunt de volgende methoden gebruiken om dubbele rijen in meerdere kolommen in een pandas DataFrame te verwijderen:

Methode 1: Verwijder duplicaten in alle kolommen

 df. drop_duplicates ()

Methode 2: Verwijder duplicaten in specifieke kolommen

 df. drop_duplicates ([' column1 ',' column3 '])

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Voorbeeld 1: Verwijder duplicaten in alle kolommen

De volgende code laat zien hoe u rijen met dubbele waarden in alle kolommen verwijdert:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

De rij op indexpositie 1 had in alle kolommen dezelfde waarden als de rij op indexpositie 0 en werd daarom uit het DataFrame verwijderd.

Standaard bewaart Panda de eerste regel als een duplicaat. U kunt echter het argument keep gebruiken om op te geven dat de laatste dubbele regel behouden moet blijven:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Voorbeeld 2: Verwijder duplicaten in specifieke kolommen

U kunt de volgende code gebruiken om rijen met dubbele waarden alleen in de regio- en winkelkolommen te verwijderen:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

In totaal zijn er twee rijen uit het DataFrame verwijderd omdat deze dubbele waarden bevatten in de kolommen Regio en Winkel .

Opmerking : u kunt de volledige documentatie voor de drop_duplicates() functie hier vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:

Hoe duplicaten in panda’s te vinden
Hoe dubbele kolommen in Pandas te verwijderen
Hoe de eerste rij in Pandas DataFrame te verwijderen

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert