我已将 CSV 导入到 pandas 数据框中;然而,我需要使用的柱子是自由形状且形状不好。
我需要提取单词 NBU 之后的第一个数字系列或字符串中的第一个数字系列。请参阅下面的一些示例:-
nbu 123456
NBU-123456
nbu/ 123456 blah12
123456
123456_123
以上所有内容都应清洁以生产123456。请注意,返回的整数数量取决于连续序列中的数量;即,nbu12 3455 应该只返回 12。
然后我将使用类似的方法来修复数据:-
df['col'] = df['col'].str.
str.extract
方法从 col
的 df
列中提取数字,其中 r'(\d+)'
中的括号表示捕获组,\d+
表示一个或更多数字。
df['col'].str.extract(r'(\d+)')
输出:
0
0 123456
1 123456
2 123456
3 123456
4 123456