Panda's: specifieke tekens uit tekenreeksen verwijderen
U kunt de volgende methoden gebruiken om specifieke tekens uit tekenreeksen in een kolom in een Panda DataFrame te verwijderen:
Methode 1: Specifieke tekens uit tekenreeksen verwijderen
df[' my_column '] = df[' my_column ']. str . replace (' this_string ', '')
Methode 2: Verwijder alle letters uit tekenreeksen
df[' my_column '] = df[' my_column ']. str . replace (' \D ', '', regex= True )
Methode 3: Verwijder alle getallen uit strings
df[' my_column '] = df[' my_column ']. str . replace (' \d+ ', '', regex= True )
De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['Mavs2', 'Nets44', 'Kings33', 'Cavs90', 'Heat576'], ' points ': [12, 15, 22, 29, 24]}) #view DataFrame print (df) team points 0 Mavs2 12 1 Nets44 15 2 Kings33 22 3 Cavs90 29 4 Heat576 24
Voorbeeld 1: Specifieke tekens uit tekenreeksen verwijderen
We kunnen de volgende syntaxis gebruiken om ‘avs’ uit elke tekenreeks in de teamkolom te verwijderen:
#remove 'avs' from strings in team column df[' team '] = df[' team ']. str . replace (' avs ', '') #view updated DataFrame print (df) team points 0 M2 12 1 Nets44 15 2 Kings33 22 3 C90 29 4 Heat576 24
Merk op dat „avs“ is verwijderd uit rijen met „Mavs“ en „Cavs“ in de teamkolom .
Voorbeeld 2: Verwijder alle letters uit strings
We kunnen de volgende syntaxis gebruiken om alle letters uit elke tekenreeks in de teamkolom te verwijderen:
#remove letters from strings in team column df[' team '] = df[' team ']. str . replace (' \D ', '', regex= True ) #view updated DataFrame print (df) team points 0 2 12 1 44 15 2 33 22 3 90 29 4,576 24
Houd er rekening mee dat alle letters uit elke tekenreeks in de teamkolom zijn verwijderd.
Alleen numerieke waarden blijven over.
Voorbeeld 3: Verwijder alle getallen uit strings
We kunnen de volgende syntaxis gebruiken om alle getallen uit elke tekenreeks in de teamkolom te verwijderen:
#remove numbers from strings in team column df[' team '] = df[' team ']. str . replace (' \d+ ', '', regex= True ) #view updated DataFrame print (df) team points 0 Mavs 12 1 Nets 15 2 Kings 22 3 Cavs 29 4 Heat 24
Houd er rekening mee dat alle getallen uit elke reeks in de teamkolom zijn verwijderd.
Alleen de letters blijven over.
Aanvullende bronnen
In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:
Hoe NaN-waarden te vervangen door nullen in Panda’s
Hoe lege strings te vervangen door NaN in Pandas
Hoe waarden in kolommen te vervangen op basis van de voorwaarde in Pandas