如何使用正则表达式python在引号内提取值？

Question

我的文字是

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'

我试图提取posted_data的2e54eba66f8f2881c8e78be8342428xd值

我的代码：

extract_posted_data = re.search(r'(\"posted_data\": \")(\w*)', my_text)
print (extract_posted_data)

它打印无

谢谢

Answer 1

这是因为您的原始代码有一个额外的空间。它应该是：

extract_posted_data = re.search(r'(\"posted_data\":\")(\w*)', my_text)

事实上，'\'在这里是不必要的。只是：

extract_posted_data = re.search(r'("posted_data":")(\w*)', my_text)

然后：

extract_posted_data.group(2)

是你想要的。

>>> my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
>>> extract_posted_data = re.search(r'("posted_data":")(\w*)', my_text)   
>>> extract_posted_data.group(2)
'2e54eba66f8f2881c8e78be8342428xd'

Answer 2

这个特殊的例子似乎根本不需要正则表达式。

>>> my_text
'"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
>>> import json
>>> result = json.loads('{%s}' % my_text)
>>> result
{'posted_data': '2e54eba66f8f2881c8e78be8342428xd', 'isropa': False, 'rx': 'NO', 'readal': 'false'}
>>> result['posted_data']
'2e54eba66f8f2881c8e78be8342428xd'

使用BeautifulSoup：

>>> import json
... 
... from bs4 import BeautifulSoup
... 
... soup = BeautifulSoup('<script type="text/javascript"> "posted_data":"2738273283723hjasda" </script>')
... 
... result = json.loads('{%s}' % soup.script.text)
>>> result
{'posted_data': '2738273283723hjasda'}
>>> result['posted_data']
'2738273283723hjasda'

Answer 3

您需要更改正则表达式以使用外观，如下所示：

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
extract_posted_data = re.search(r'(?<="posted_data":")\w*(?=")', my_text)
print (extract_posted_data[0])

打印2e54eba66f8f2881c8e78be8342428xd

此外，re.search()返回一个Match对象，因此要获得第一个匹配（唯一匹配），您将得到匹配的索引0：

Answer 4

正如其他人提到的那样，json对于这些数据来说是一个更好的工具，但是你也可以使用这个正则表达式（我添加了一个\ s *，以防将来中间有空格）：

正则表达式："posted_data":\s*"(?P<posted_data>[^"]+)"

import re

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
m = re.search(r'"posted_data":\s*"(?P<posted_data>[^"]+)"', my_text)
if m:
    print(m.group('posted_data'))

如何使用正则表达式python在引号内提取值？

问题描述投票：2回答：4

4个回答

最新问题

如何使用正则表达式python在引号内提取值？

问题描述 投票：2回答：4

4个回答

最新问题

问题描述投票：2回答：4