pandas 清理列中的自由格式数据

问题描述 投票:0回答:1

我已将 CSV 导入到 pandas 数据框中;然而,我需要使用的柱子是自由形状且形状不好。

我需要提取单词 NBU 之后的第一个数字系列或字符串中的第一个数字系列。请参阅下面的一些示例:-

nbu 123456
NBU-123456
nbu/ 123456 blah12
123456
123456_123

以上所有内容都应清洁以生产123456。请注意,返回的整数数量取决于连续序列中的数量;即,nbu12 3455 应该只返回 12。

然后我将使用类似的方法来修复数据:-

df['col'] = df['col'].str.
python pandas dataframe
1个回答
0
投票

一种可能的解决方案,其工作原理如下:它使用

str.extract
方法从
col
df
列中提取数字,其中
r'(\d+)'
中的括号表示捕获组,
\d+
表示一个或更多数字。

df['col'].str.extract(r'(\d+)')

输出:

        0
0  123456
1  123456
2  123456
3  123456
4  123456
© www.soinside.com 2019 - 2024. All rights reserved.