在 pandas 数据框替换功能中使用正则表达式匹配组

Question

我刚刚学习 python/pandas，喜欢它的强大和简洁。

在数据清理期间，我想使用正则表达式对数据框中的列进行替换，但我想重新插入部分匹配（组）。

简单的例子：姓氏，名字 -> 名字姓氏

我尝试了类似以下的内容（实际情况更复杂，所以请原谅简单的正则表达式）：

df['Col1'].replace({'([A-Za-z])+, ([A-Za-z]+)' : '\2 \1'}, inplace=True, regex=True)

但是，这会导致空值。匹配部分按预期工作，但值部分则不然。我想这可以通过一些拆分和合并来实现，但我正在寻找关于正则表达式组是否可以用于替换的一般答案。

Answer 1

我认为您对正则表达式有一些问题。

正如@Abdou刚刚所说使用

'\\2 \\1'

或更好的

r'\2 \1'

，因为

'\1'

是带有ASCII代码的符号

如果您使用正确的正则表达式，您的解决方案应该有效：

In [193]: df
Out[193]:
              name
0        John, Doe
1  Max, Mustermann

In [194]: df.name.replace({r'(\w+),\s+(\w+)' : r'\2 \1'}, regex=True)
Out[194]:
0          Doe John
1    Mustermann Max
Name: name, dtype: object

In [195]: df.name.replace({r'(\w+),\s+(\w+)' : r'\2 \1', 'Max':'Fritz'}, regex=True)
Out[195]:
0            Doe John
1    Mustermann Fritz
Name: name, dtype: object

Answer 2

设置

df = pd.DataFrame(dict(name=['Smith, Sean']))
print(df)

          name
0  Smith, Sean

使用

replace

df.name.str.replace(r'(\w+),\s*(\w+)', r'\2 \1')

0    Sean Smith
Name: name, dtype: object

使用

extract

分成两列

df.name.str.extract('(?P<Last>\w+),\s*(?P<First>\w+)', expand=True)

    Last First
0  Smith  Sean

在 pandas 数据框替换功能中使用正则表达式匹配组

问题描述投票：0回答：2

2个回答

最新问题

在 pandas 数据框替换功能中使用正则表达式匹配组

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2