Panda's: specifieke tekens uit tekenreeksen verwijderen


U kunt de volgende methoden gebruiken om specifieke tekens uit tekenreeksen in een kolom in een Panda DataFrame te verwijderen:

Methode 1: Specifieke tekens uit tekenreeksen verwijderen

 df[' my_column '] = df[' my_column ']. str . replace (' this_string ', '')

Methode 2: Verwijder alle letters uit tekenreeksen

 df[' my_column '] = df[' my_column ']. str . replace (' \D ', '', regex= True )

Methode 3: Verwijder alle getallen uit strings

 df[' my_column '] = df[' my_column ']. str . replace (' \d+ ', '', regex= True )

De volgende voorbeelden laten zien hoe u elke methode in de praktijk kunt gebruiken met de volgende panda’s DataFrame:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['Mavs2', 'Nets44', 'Kings33', 'Cavs90', 'Heat576'],
                   ' points ': [12, 15, 22, 29, 24]})

#view DataFrame
print (df)

      team points
0 Mavs2 12
1 Nets44 15
2 Kings33 22
3 Cavs90 29
4 Heat576 24

Voorbeeld 1: Specifieke tekens uit tekenreeksen verwijderen

We kunnen de volgende syntaxis gebruiken om ‘avs’ uit elke tekenreeks in de teamkolom te verwijderen:

 #remove 'avs' from strings in team column
df[' team '] = df[' team ']. str . replace (' avs ', '')

#view updated DataFrame
print (df)

      team points
0 M2 12
1 Nets44 15
2 Kings33 22
3 C90 29
4 Heat576 24

Merk op dat „avs“ is verwijderd uit rijen met „Mavs“ en „Cavs“ in de teamkolom .

Voorbeeld 2: Verwijder alle letters uit strings

We kunnen de volgende syntaxis gebruiken om alle letters uit elke tekenreeks in de teamkolom te verwijderen:

 #remove letters from strings in team column
df[' team '] = df[' team ']. str . replace (' \D ', '', regex= True )

#view updated DataFrame
print (df)

  team points
0 2 12
1 44 15
2 33 22
3 90 29
4,576 24

Houd er rekening mee dat alle letters uit elke tekenreeks in de teamkolom zijn verwijderd.

Alleen numerieke waarden blijven over.

Voorbeeld 3: Verwijder alle getallen uit strings

We kunnen de volgende syntaxis gebruiken om alle getallen uit elke tekenreeks in de teamkolom te verwijderen:

 #remove numbers from strings in team column
df[' team '] = df[' team ']. str . replace (' \d+ ', '', regex= True )

#view updated DataFrame
print (df)

    team points
0 Mavs 12
1 Nets 15
2 Kings 22
3 Cavs 29
4 Heat 24

Houd er rekening mee dat alle getallen uit elke reeks in de teamkolom zijn verwijderd.

Alleen de letters blijven over.

Aanvullende bronnen

In de volgende tutorials wordt uitgelegd hoe u andere veelvoorkomende taken in panda’s kunt uitvoeren:

Hoe NaN-waarden te vervangen door nullen in Panda’s
Hoe lege strings te vervangen door NaN in Pandas
Hoe waarden in kolommen te vervangen op basis van de voorwaarde in Pandas

Einen Kommentar hinzufügen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert