Panda's: hoe u duplicaten op meerdere kolommen verwijdert

Von Dr.benjamin anderson Juli 21, 2023 Gids Keine Kommentare

U kunt de volgende methoden gebruiken om dubbele rijen in meerdere kolommen in een pandas DataFrame te verwijderen:

Methode 1: Verwijder duplicaten in alle kolommen

 df. drop_duplicates ()

Methode 2: Verwijder duplicaten in specifieke kolommen

 df. drop_duplicates ([' column1 ',' column3 '])

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' region ': ['East', 'East', 'East', 'West', 'West', 'West'],
                   ' store ': [1, 1, 2, 1, 2, 2],
                   ' sales ': [5, 5, 7, 9, 12, 8]})

#view DataFrame
print (df)

  region store sales
0 East 1 5
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Voorbeeld 1: Verwijder duplicaten in alle kolommen

De volgende code laat zien hoe u rijen met dubbele waarden in alle kolommen verwijdert:

 #drop rows that have duplicate values across all columns
df. drop_duplicates ()

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

De rij op indexpositie 1 had in alle kolommen dezelfde waarden als de rij op indexpositie 0 en werd daarom uit het DataFrame verwijderd.

Standaard bewaart Panda de eerste regel als een duplicaat. U kunt echter het argument keep gebruiken om op te geven dat de laatste dubbele regel behouden moet blijven:

 #drop rows that have duplicate values across all columns (keep last duplicate)
df. drop_duplicates (keep=' last ')

	region store sales
1 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12
5 West 2 8

Voorbeeld 2: Verwijder duplicaten in specifieke kolommen

U kunt de volgende code gebruiken om rijen met dubbele waarden alleen in de regio- en winkelkolommen te verwijderen:

 #drop rows that have duplicate values across region and store columns
df. drop_duplicates ([' region ',' store '])

	region store sales
0 East 1 5
2 East 2 7
3 West 1 9
4 West 2 12

In totaal zijn er twee rijen uit het DataFrame verwijderd omdat deze dubbele waarden bevatten in de kolommen Regio en Winkel .

Opmerking : u kunt de volledige documentatie voor de drop_duplicates() functie hier vinden.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende bewerkingen in panda’s kunt uitvoeren:

Hoe duplicaten in panda’s te vinden
Hoe dubbele kolommen in Pandas te verwijderen
Hoe de eerste rij in Pandas DataFrame te verwijderen

Über den Autor

Dr.benjamin anderson

Ik ben Benjamin, een gepensioneerde hoogleraar statistiek die nu een toegewijde Statorials-lesgever is. Ik heb uitgebreide ervaring en expertise op het gebied van statistiek en ik ben vastbesloten om mijn kennis te delen met studenten via Statorials. Lees verder

Voorbeeld 1: Verwijder duplicaten in alle kolommen

Voorbeeld 2: Verwijder duplicaten in specifieke kolommen

Aanvullende bronnen

Über den Autor

Dr.benjamin anderson

Einen Kommentar hinzufügen