Pandas: как удалить специальные символы из столбца


Вы можете использовать следующий базовый синтаксис для удаления специальных символов из столбца в DataFrame pandas:

 df[' my_column '] = df[' my_column ']. str . replace (' \W ', '', regex= True )

В этом конкретном примере из my_column будут удалены все символы, которые не являются ни буквами, ни цифрами.

В следующем примере показано, как использовать этот синтаксис на практике.

Пример: удалить специальные символы из столбца в Pandas

Предположим, у нас есть следующий DataFrame pandas, содержащий информацию о различных баскетболистах:

 import pandas as pd

#createDataFrame
df = pd. DataFrame ({' team ': ['Mavs$', 'Nets', 'Kings!!', 'Spurs%', '&Heat&'],
                   ' points ': [12, 15, 22, 29, 24]})

#view DataFrame
print (df)

      team points
0 Mavs$ 12
1 Nets 15
2 Kings!! 22
3 Spurs% 29
4 &Heat& 24

Допустим, мы хотим удалить все специальные символы из значений столбца команды .

Для этого мы можем использовать следующий синтаксис:

 #remove special characters from team column
df[' team '] = df[' team ']. str . replace (' \W ', '', regex= True )

#view updated DataFrame
print (df)

    team points
0 Mavs 12
1 Nets 15
2 Kings 22
3 Spurs 29
4 Heat 24

Обратите внимание, что все специальные символы были удалены из значений столбца команды .

Примечание . Регулярное выражение \W используется для поиска всех символов, не являющихся словами, то есть символов, которые не являются ни буквенными, ни цифровыми.

В этом примере мы заменили каждый символ, не являющийся словом, пустым значением, что эквивалентно удалению символов, не являющихся словами.

Дополнительные ресурсы

В следующих руководствах объясняется, как выполнять другие распространенные задачи в pandas:

Как заменить значения NaN нулями в Pandas
Как заменить пустые строки NaN в Pandas
Как заменить значения в столбце по условию в Pandas

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *