Pandas: как удалить специальные символы из столбца
Вы можете использовать следующий базовый синтаксис для удаления специальных символов из столбца в DataFrame pandas:
df[' my_column '] = df[' my_column ']. str . replace (' \W ', '', regex= True )
В этом конкретном примере из my_column будут удалены все символы, которые не являются ни буквами, ни цифрами.
В следующем примере показано, как использовать этот синтаксис на практике.
Пример: удалить специальные символы из столбца в Pandas
Предположим, у нас есть следующий DataFrame pandas, содержащий информацию о различных баскетболистах:
import pandas as pd #createDataFrame df = pd. DataFrame ({' team ': ['Mavs$', 'Nets', 'Kings!!', 'Spurs%', '&Heat&'], ' points ': [12, 15, 22, 29, 24]}) #view DataFrame print (df) team points 0 Mavs$ 12 1 Nets 15 2 Kings!! 22 3 Spurs% 29 4 &Heat& 24
Допустим, мы хотим удалить все специальные символы из значений столбца команды .
Для этого мы можем использовать следующий синтаксис:
#remove special characters from team column df[' team '] = df[' team ']. str . replace (' \W ', '', regex= True ) #view updated DataFrame print (df) team points 0 Mavs 12 1 Nets 15 2 Kings 22 3 Spurs 29 4 Heat 24
Обратите внимание, что все специальные символы были удалены из значений столбца команды .
Примечание . Регулярное выражение \W используется для поиска всех символов, не являющихся словами, то есть символов, которые не являются ни буквенными, ни цифровыми.
В этом примере мы заменили каждый символ, не являющийся словом, пустым значением, что эквивалентно удалению символов, не являющихся словами.
Дополнительные ресурсы
В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:
Как заменить значения NaN нулями в Pandas
Как заменить пустые строки NaN в Pandas
Как заменить значения в столбце по условию в Pandas