哪个部分被认为是响应的“解析”,另一个补充部分叫什么?

问题描述 投票:0回答:1

考虑以下网页抓取代码的通用示例

# 1. Sending a request
url = 'https://example.com'
response = requests.get(url)

# 2. 'Parsing' of the response
soup = BeautifulSoup(response.content, 'html.parser')

# 3. Even more 'parsing' of the already 'parsed' response
data_1 = [x.text for x in soup.find_all('a')]
data_2 = [x.text for x in soup.find_all('b')]
# 1. Sending a request
url = 'https://anotherexample.com'
response = requests.get(url)

# 2. 'Parsing' of the response
response_json = response.json()

# 3. Even more 'parsing' of the already 'parsed' response
data_1 = r_json['items']
data_2 = r_json['other_items']

我已经看到了第 2 部分和第 3 部分 - 单独和集体 - 被称为初始响应的“解析”。但这两个部分的功能非常不同,将它们分成不同的功能/等等通常很有用。

在以尽可能描述性的方式命名函数或为每个函数中的底层逻辑类型提供“名称”时,这会产生一些不确定性 - 如果我将第 2 部分称为“解析”,那么第 3 部分只能被称为“进一步解析”。那么对于我们在第 2 部分和第 3 部分中所做的事情是否有更合适的“单独”术语?

python web-scraping terminology
1个回答
0
投票

那么对于我们在第 2 部分和第 3 部分中所做的事情是否有更合适的“单独”术语?

我想说以下内容是非常习惯的:1)发送请求,2)读取响应,3)解析响应数据。 也就是说,我们通常使用从通道或文件“读取”(原始数据); “解析”(从原始数据)到域表示(例如域对象)。

也就是说,同义词可以在不同的抽象级别使用(例如读取与反序列化),固定的是,如上所述,我们将从通道解码到原始数据的操作与从原始数据解析的操作区分开来域表示,它们不仅在概念上而且通常在技术上完全不同(不同的“通道”,而且也不同的协议/解析规则)。

© www.soinside.com 2019 - 2024. All rights reserved.