Python pandas 清理列中的自由格式数据

Question

我已将 CSV 导入到 pandas 数据框中；然而，我需要使用的柱子是自由形状且形状不好。

我需要提取单词 NBU 之后的第一个数字系列或字符串中的第一个数字系列。请参阅下面的一些示例：-

nbu 123456
NBU-123456
nbu/ 123456 blah12
123456
123456_123

以上所有内容都应清洁以生产123456。请注意，返回的整数数量取决于连续序列中的数量；即，nbu12 3455 应该只返回 12。

然后我将使用类似的方法来修复数据：-

df['col'] = df['col'].str.

Answer 1

一个可能的解决方案：

df['col'].str.extract(r'(\d+)')

输出：