Hoe dubbele rijen in een pandas dataframe te verwijderen


De eenvoudigste manier om dubbele rijen in een panda’s DataFrame te verwijderen is door de functie drop_duplicates() te gebruiken, die de volgende syntaxis gebruikt:

df.drop_duplicates(subset=Geen, keep=’eerste‘, inplace=False)

Goud:

  • subset: met welke kolommen rekening moet worden gehouden om duplicaten te identificeren. De standaardinstelling is alle kolommen.
  • behouden: specificeert welke duplicaten (indien aanwezig) moeten worden bewaard.
    • eerste: verwijder alle dubbele regels behalve de eerste.
    • laatste: verwijdert alle dubbele regels behalve de laatste.
    • False : verwijder alle duplicaten.
  • inplace: geeft aan of duplicaten ter plaatse moeten worden verwijderd of een kopie van het DataFrame moet worden geretourneerd.

Deze tutorial biedt verschillende voorbeelden van praktisch gebruik van deze functie op het volgende DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({'team': ['a', 'b', 'b', 'c', 'c', 'd'],
                   'points': [3, 7, 7, 8, 8, 9],
                   'assists': [8, 6, 7, 9, 9, 3]})

#display DataFrame
print (df)

  team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
4 c 8 9
5 d 9 3

Voorbeeld 1: Verwijder duplicaten in alle kolommen

De volgende code laat zien hoe u rijen met dubbele waarden in alle kolommen verwijdert:

 df. drop_duplicates ()

        team points assists
0 to 3 8
1 b 7 6
2 b 7 7
3 c 8 9
5 d 9 3

Standaard verwijdert de functie drop_duplicates() alle duplicaten behalve de eerste.

We kunnen echter het argument keep=False gebruiken om alle duplicaten volledig te verwijderen:

 df. drop_duplicates (keep= False )

	team points assists
0 to 3 8
1 b 7 6
2 b 7 7
5 d 9 3

Voorbeeld 2: Verwijder duplicaten in specifieke kolommen

De volgende code laat zien hoe u rijen met dubbele waarden alleen kunt verwijderen in de kolommen met de naam team en punten :

 df. drop_duplicates (subset=[' team ', ' points '])

        team points assists
0 to 3 8
1 b 7 6
3 c 8 9
5 d 9 3

Aanvullende bronnen

Hoe dubbele kolommen in Pandas te verwijderen
Hoe waarden in een Pandas DataFrame te sorteren
Hoe u een Pandas DataFrame op meerdere voorwaarden kunt filteren
Hoe u een kolom invoegt in een Pandas DataFrame

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert