Pandas: como remover caracteres especiais da coluna


Você pode usar a seguinte sintaxe básica para remover caracteres especiais de uma coluna em um DataFrame do pandas:

 df[' my_column '] = df[' my_column ']. str . replace (' \W ', '', regex= True )

Este exemplo específico removerá todos os caracteres de my_column que não sejam letras nem números.

O exemplo a seguir mostra como usar essa sintaxe na prática.

Exemplo: remova caracteres especiais da coluna no Pandas

Suponha que temos o seguinte DataFrame do pandas que contém informações sobre vários jogadores de basquete:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['Mavs$', 'Nets', 'Kings!!', 'Spurs%', '&Heat&'],
                   ' points ': [12, 15, 22, 29, 24]})

#view DataFrame
print (df)

      team points
0 Mavs$ 12
1 Nets 15
2 Kings!! 22
3 Spurs% 29
4 &Heat& 24

Digamos que queremos remover todos os caracteres especiais dos valores da coluna da equipe .

Podemos usar a seguinte sintaxe para fazer isso:

 #remove special characters from team column
df[' team '] = df[' team ']. str . replace (' \W ', '', regex= True )

#view updated DataFrame
print (df)

    team points
0 Mavs 12
1 Nets 15
2 Kings 22
3 Spurs 29
4 Heat 24

Observe que todos os caracteres especiais foram removidos dos valores da coluna da equipe .

Nota : A expressão regular \W é usada para pesquisar todos os caracteres que não sejam palavras, ou seja, caracteres que não são alfabéticos nem numéricos.

Neste exemplo, substituímos cada caractere que não seja de palavra por um valor vazio, o que equivale a remover caracteres que não sejam de palavras.

Recursos adicionais

Os tutoriais a seguir explicam como realizar outras tarefas comuns em pandas:

Como substituir valores NaN por zeros no Pandas
Como substituir strings vazias por NaN no Pandas
Como substituir valores na coluna com base na condição no Pandas

Add a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *