Pandas: como remover caracteres especiais da coluna
Você pode usar a seguinte sintaxe básica para remover caracteres especiais de uma coluna em um DataFrame do pandas:
df[' my_column '] = df[' my_column ']. str . replace (' \W ', '', regex= True )
Este exemplo específico removerá todos os caracteres de my_column que não sejam letras nem números.
O exemplo a seguir mostra como usar essa sintaxe na prática.
Exemplo: remova caracteres especiais da coluna no Pandas
Suponha que temos o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['Mavs$', 'Nets', 'Kings!!', 'Spurs%', '&Heat&'], ' points ': [12, 15, 22, 29, 24]}) #view DataFrame print (df) team points 0 Mavs$ 12 1 Nets 15 2 Kings!! 22 3 Spurs% 29 4 &Heat& 24
Digamos que queremos remover todos os caracteres especiais dos valores da coluna da equipe .
Podemos usar a seguinte sintaxe para fazer isso:
#remove special characters from team column df[' team '] = df[' team ']. str . replace (' \W ', '', regex= True ) #view updated DataFrame print (df) team points 0 Mavs 12 1 Nets 15 2 Kings 22 3 Spurs 29 4 Heat 24
Observe que todos os caracteres especiais foram removidos dos valores da coluna da equipe .
Nota : A expressão regular \W é usada para pesquisar todos os caracteres que não sejam palavras, ou seja, caracteres que não são alfabéticos nem numéricos.
Neste exemplo, substituímos cada caractere que não seja de palavra por um valor vazio, o que equivale a remover caracteres que não sejam de palavras.
Recursos adicionais
Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:
Como substituir valores NaN por zeros no Pandas
Como substituir strings vazias por NaN no Pandas
Como substituir valores na coluna com base na condição no Pandas