我试图通过使用python 3.X的正则表达式删除一些字符:
我想要:
1 - 在"{"Extracts:..."
之前删除所有内容
例如 :
"<body><p>{"Extracts":..." after "{"Extracts:..."
2 - 删除"...PageCount":1}
或"...PageCount":3}
或"...PageCount":45}
之后的所有内容
例如
"...PageCount":1}</p></sup> after "...PageCount":1}"
"...PageCount":47}</p></sup> after "...PageCount":47}"
提前致谢
使用先行和lookbehind为此。
1)这将匹配.*{"Extracts"
之前的所有角色
r'.*(?={\"Extracts\":)'
2)这将匹配"PageCount":x}
之后的所有角色
r'(?<=\"PageCount\":[0-9]+\}).*'
https://regex101.com/r/fu2hDJ/1 https://regex101.com/r/wccBs1/1
要么
您可以使用此正则表达式匹配您的字典:
{"Extracts":.*"PageCount":[0-9]+}