如何使用正则表达式python在引号内提取值?

问题描述 投票:2回答:4

我的文字是

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'

我试图提取posted_data2e54eba66f8f2881c8e78be8342428xd

我的代码:

extract_posted_data = re.search(r'(\"posted_data\": \")(\w*)', my_text)
print (extract_posted_data)

它打印无

谢谢

python regex python-3.x
4个回答
1
投票

这是因为您的原始代码有一个额外的空间。它应该是:

extract_posted_data = re.search(r'(\"posted_data\":\")(\w*)', my_text)

事实上,'\'在这里是不必要的。只是:

extract_posted_data = re.search(r'("posted_data":")(\w*)', my_text)

然后:

extract_posted_data.group(2)

是你想要的。

>>> my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
>>> extract_posted_data = re.search(r'("posted_data":")(\w*)', my_text)   
>>> extract_posted_data.group(2)
'2e54eba66f8f2881c8e78be8342428xd'

3
投票

这个特殊的例子似乎根本不需要正则表达式。

>>> my_text
'"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
>>> import json
>>> result = json.loads('{%s}' % my_text)
>>> result
{'posted_data': '2e54eba66f8f2881c8e78be8342428xd', 'isropa': False, 'rx': 'NO', 'readal': 'false'}
>>> result['posted_data']
'2e54eba66f8f2881c8e78be8342428xd'

使用BeautifulSoup

>>> import json
... 
... from bs4 import BeautifulSoup
... 
... soup = BeautifulSoup('<script type="text/javascript"> "posted_data":"2738273283723hjasda" </script>')
... 
... result = json.loads('{%s}' % soup.script.text)
>>> result
{'posted_data': '2738273283723hjasda'}
>>> result['posted_data']
'2738273283723hjasda'

1
投票

您需要更改正则表达式以使用外观,如下所示:

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
extract_posted_data = re.search(r'(?<="posted_data":")\w*(?=")', my_text)
print (extract_posted_data[0])

打印2e54eba66f8f2881c8e78be8342428xd

此外,re.search()返回一个Match对象,因此要获得第一个匹配(唯一匹配),您将得到匹配的索引0:


1
投票

正如其他人提到的那样,json对于这些数据来说是一个更好的工具,但是你也可以使用这个正则表达式(我添加了一个\ s *,以防将来中间有空格):

正则表达式:"posted_data":\s*"(?P<posted_data>[^"]+)"

import re

my_text = '"posted_data":"2e54eba66f8f2881c8e78be8342428xd","isropa":false,"rx":"NO","readal":"false"'
m = re.search(r'"posted_data":\s*"(?P<posted_data>[^"]+)"', my_text)
if m:
    print(m.group('posted_data'))
© www.soinside.com 2019 - 2024. All rights reserved.