Hoe u afzonderlijke rijen selecteert in een pandas dataframe


U kunt de volgende syntaxis gebruiken om afzonderlijke rijen in een Panda DataFrame te selecteren:

 df = df. drop_duplicates ()

En u kunt de volgende syntaxis gebruiken om afzonderlijke rijen in specifieke kolommen in een pandas DataFrame te selecteren:

 df = df. drop_duplicates (subset=[' col1 ', ' col2 ', ...])

De volgende voorbeelden laten zien hoe u deze syntaxis in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' a ':[4,4,3,8],
                   ' b ': [2, 2, 6, 8],
                   ' c ': [2, 2, 9, 9]})

#view DataFrame
df

	a b c
0 4 2 2
1 4 2 2
2 3 6 9
3 8 8 9

Voorbeeld 1: Selecteer unieke rijen in alle kolommen

De volgende code laat zien hoe u unieke rijen in alle kolommen van het panda’s DataFrame selecteert:

 #drop duplicates from DataFrame
df = df. drop_duplicates ()

#view DataFrame
df

	a b c
0 4 2 2
2 3 6 9
3 8 8 9

De eerste en tweede regel waren duplicaten, dus de panda’s lieten de tweede regel vallen.

Standaard behoudt de functie drop_duplicates() het eerste duplicaat. U kunt echter opgeven dat u in plaats daarvan het laatste duplicaat wilt behouden:

 #drop duplicates from DataFrame, keep last duplicate
df = df. drop_duplicates (keep=' last ')

#view DataFrame
df

	a b c
1 4 2 2
2 3 6 9
3 8 8 9

Voorbeeld 2: Selecteer unieke rijen in specifieke kolommen

De volgende code laat zien hoe u afzonderlijke rijen selecteert in de enkele ‚c‘-kolom van het DataFrame:

 #drop duplicates from column 'c' in DataFrame
df = df. drop_duplicates (subset=[' c '])

#view DataFrame
df
	a b c
0 4 2 2
2 3 6 9

Er zijn twee rijen verwijderd uit het DataFrame.

Aanvullende bronnen

Hoe rijen op index te selecteren in een Pandas DataFrame
Hoe rijnummers in een Pandas DataFrame te krijgen
Hoe unieke waarden in een kolom in Pandas te vinden

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert