Python 数据帧格式掩码,用于清理“-”等特殊字符之前和之后的自由格式数据

问题描述 投票:0回答:1

我正在将数据库中的表导出到 pandas 数据框中,并尝试实现格式掩码来清理列中保存的一些自由格式文本。

我想在数据框中创建一个新列,以从现有列中直接提取“-”之前和之后的所有数字。注意由任何空格分隔,如上一个示例所示。

以下是我拥有的一些数据变化:

'Widget 1234-12345 Blah Blah',
'12345-12345_A',
'123456-123456 and 6789-12345'
'12 1234567-1234567'

输出应如下所示:

1234-12345
12345-12345
123456-123456
1234567-1234567
python-3.x pandas dataframe
1个回答
0
投票

用途:

df['new'] = df['col'].str.extract(r'(\d+-\d+)', expand=False)
© www.soinside.com 2019 - 2024. All rights reserved.