我正在将数据库中的表导出到 pandas 数据框中,并尝试实现格式掩码来清理列中保存的一些自由格式文本。
我想在数据框中创建一个新列,以从现有列中直接提取“-”之前和之后的所有数字。注意由任何空格分隔,如上一个示例所示。
以下是我拥有的一些数据变化:
'Widget 1234-12345 Blah Blah',
'12345-12345_A',
'123456-123456 and 6789-12345'
'12 1234567-1234567'
输出应如下所示:
1234-12345
12345-12345
123456-123456
1234567-1234567
用途:
df['new'] = df['col'].str.extract(r'(\d+-\d+)', expand=False)