Panda df 清理自由格式文本并提取某些单词或字符

Question

您可以从数据框中的不良自由格式数据中提取一系列字母和数字吗？

我想在数据框中创建一个新列，其中的数据包含“NEX”及其后面的一系列数字。

import pandas as pd

#Create a Dataframe
data = {
    'ID':[1,2,3,4,5],
    'PROGRAM': [ 'nbu 123456',
                'NBU-123456',
                'nex999999 b12',
                'NXE999999 123',
                'NBU123456 NEX999999']
}

df = pd.DataFrame(data)

我认为我与下面的内容是正确的，但我以某种方式需要结合它们的功能：-

print(df['PROGRAM'].str.contains('NEX', na=False))
print(df['PROGRAM'].str.extract(r'([NEX]+\d+)', expand=False)) #does not deal with lower case & contains letters NEX not nessary in that order

结果应该只会返回NEX999999（包括将小写转换为大写）

df['NEX'] = df['PROGRAM'].str.blahblahblah

Answer 1

您不需要使用

NEX

预过滤行，您的正则表达式已经可以做到这一点。

您的正则表达式的一个问题是

[NEX]

，这允许 N/E/X 集中的单个字符，这不是您想要的。

[NEX]+

将匹配

或

EEEN

。

您应该使用：

df['out'] = df['PROGRAM'].str.upper().str.extract(r'(NEX\d+)', expand=False)

输出：

   ID              PROGRAM        out
0   1           nbu 123456        NaN
1   2           NBU-123456        NaN
2   3        nex999999 b12  NEX999999
3   4        NXE999999 123        NaN
4   5  NBU123456 NEX999999  NEX999999

Panda df 清理自由格式文本并提取某些单词或字符

问题描述投票：0回答：1

1个回答

最新问题

Panda df 清理自由格式文本并提取某些单词或字符

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1