Выполнение замен регулярных выражений в Pandas: методы и примеры

Под «заменой регулярных выражений Pandas» подразумевается использование регулярных выражений (регулярных выражений) в библиотеке Python под названием Pandas для выполнения операций замены строк. Вот несколько методов, которые вы можете использовать в Pandas для достижения этой цели:

  1. str.replace(): этот метод позволяет заменить подстроку в столбце другой подстрокой. Хотя он не поддерживает регулярные выражения напрямую, вы можете объединить его с методом str.replace()из модуля Python reдля выполнения замен на основе регулярных выражений.

Пример:

import pandas as pd
import re
df = pd.DataFrame({'text': ['Hello, World!', 'Hi, there!']})
df['text'] = df['text'].str.replace(r'[,!]', '')
  1. str.replace()с regex=True: начиная с Pandas 0.23.0 вы можете установить для параметра regexзначение True, чтобы включить замену на основе регулярных выражений непосредственно в методе str.replace().

Пример:

df['text'] = df['text'].str.replace(r'[,!]', '', regex=True)
  1. str.replace()с шаблоном регулярного выражения и функцией замены. Вы можете использовать метод str.replace()с шаблоном регулярного выражения и функцией замены, чтобы выполнять более сложные замены на основе совпадений с регулярными выражениями.

Пример:

def repl_func(match):
    return match.group(0).upper()
df['text'] = df['text'].str.replace(r'\b\w+\b', repl_func)