我的Python程序从一个子进程的内部从一个网站拉取。这工作正常。
url = 'https://www.website.com/us/{0}/recent/kvc-4020_120/'.format(zipCode)
然而,该网站根据邮政编码,可能有多个页面的结果。当这种情况发生时,它发生的格式是:。
https://www.website.com/us/ZIPCODE/recent/kvc-4020_120?sortId=2&offset=48
在这种情况下 ?sortId=2&offset=? 保持不变。我的问题是--我怎样才能自动改变URL,就像我手动点击进入下一页一样?唯一改变的是偏移量。每页增加24。例如:
第1页, 最近的kvc-4020_120。
第2页,recentkvc-4020_120?sortId=2&offset=24。
第3页,recentkvc-4020_120?sortId=2&offset=48。
等等等等。
这样最多只能达到150页。我只是不知道如何考虑到第1页URL与第1页以上的任何内容。
从网站上拉取后,我写到一个txt文件中。我想自动检查 如果有下一页 如果有,则更改URL并重复这个过程。如果没有下一个页面,就转到下一个邮编。
A for loop
:
for i in ['/recent/kvc-'+str(y)+'_120'
if x == 0 else '/recent/kvc-'+str(y)+'_120?sortid=2&offset=' + str(x)
for x in range(0, 48, 24) for y in range(4000,5000)]:
your_function('web_prefix' + i)
哪里:
range(0, 48, 24) # incriment to 48 by 24 (just an example)
range(4000, 5000) # Assumed range of Postcodes