自动改变我从哪个网站拉取的信息

问题描述 投票:0回答:1

我的Python程序从一个子进程的内部从一个网站拉取。这工作正常。

url = 'https://www.website.com/us/{0}/recent/kvc-4020_120/'.format(zipCode)

然而,该网站根据邮政编码,可能有多个页面的结果。当这种情况发生时,它发生的格式是:。

https://www.website.com/us/ZIPCODE/recent/kvc-4020_120?sortId=2&offset=48

在这种情况下 ?sortId=2&offset=? 保持不变。我的问题是--我怎样才能自动改变URL,就像我手动点击进入下一页一样?唯一改变的是偏移量。每页增加24。例如:

第1页, 最近的kvc-4020_120。

第2页,recentkvc-4020_120?sortId=2&offset=24。

第3页,recentkvc-4020_120?sortId=2&offset=48。

等等等等。

这样最多只能达到150页。我只是不知道如何考虑到第1页URL与第1页以上的任何内容。

从网站上拉取后,我写到一个txt文件中。我想自动检查 如果有下一页 如果有,则更改URL并重复这个过程。如果没有下一个页面,就转到下一个邮编。

python url count subprocess
1个回答
0
投票

A for loop:

for i in ['/recent/kvc-'+str(y)+'_120' 
if x == 0 else '/recent/kvc-'+str(y)+'_120?sortid=2&offset=' + str(x) 
for x in range(0, 48, 24) for y in range(4000,5000)]:
    your_function('web_prefix' + i)

哪里:

range(0, 48, 24)   # incriment to 48 by 24 (just an example)
range(4000, 5000)    # Assumed range of Postcodes
© www.soinside.com 2019 - 2024. All rights reserved.