Hoe u afzonderlijke rijen selecteert in een pandas dataframe
U kunt de volgende syntaxis gebruiken om afzonderlijke rijen in een Panda DataFrame te selecteren:
df = df. drop_duplicates ()
En u kunt de volgende syntaxis gebruiken om afzonderlijke rijen in specifieke kolommen in een pandas DataFrame te selecteren:
df = df. drop_duplicates (subset=[' col1 ', ' col2 ', ...])
De volgende voorbeelden laten zien hoe u deze syntaxis in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' a ':[4,4,3,8], ' b ': [2, 2, 6, 8], ' c ': [2, 2, 9, 9]}) #view DataFrame df a b c 0 4 2 2 1 4 2 2 2 3 6 9 3 8 8 9
Voorbeeld 1: Selecteer unieke rijen in alle kolommen
De volgende code laat zien hoe u unieke rijen in alle kolommen van het panda’s DataFrame selecteert:
#drop duplicates from DataFrame df = df. drop_duplicates () #view DataFrame df a b c 0 4 2 2 2 3 6 9 3 8 8 9
De eerste en tweede regel waren duplicaten, dus de panda’s lieten de tweede regel vallen.
Standaard behoudt de functie drop_duplicates() het eerste duplicaat. U kunt echter opgeven dat u in plaats daarvan het laatste duplicaat wilt behouden:
#drop duplicates from DataFrame, keep last duplicate df = df. drop_duplicates (keep=' last ') #view DataFrame df a b c 1 4 2 2 2 3 6 9 3 8 8 9
Voorbeeld 2: Selecteer unieke rijen in specifieke kolommen
De volgende code laat zien hoe u afzonderlijke rijen selecteert in de enkele ‚c‘-kolom van het DataFrame:
#drop duplicates from column 'c' in DataFrame df = df. drop_duplicates (subset=[' c ']) #view DataFrame df a b c 0 4 2 2 2 3 6 9
Er zijn twee rijen verwijderd uit het DataFrame.
Aanvullende bronnen
Hoe rijen op index te selecteren in een Pandas DataFrame
Hoe rijnummers in een Pandas DataFrame te krijgen
Hoe unieke waarden in een kolom in Pandas te vinden