Web Scraping - 下载Zip文件

问题描述 投票:0回答:1

我正在尝试从一个带有python的zip文件中捆绑的网站下载一堆PDF文件。要下载zip文件,我单击一个下载按钮,弹出窗口(我认为这对问题并不重要,但我会将其包含在内以保证完整性)。 Chrome会在按下下载按钮并显示弹出窗口时显示此信息:

enter image description here

enter image description here

然后我必须单击弹出窗口上的下载按钮才能真正开始下载。这是以下内容:

enter image description here

我非常有信心第一个请求是唯一重要的请求。如果我们查看此POST请求的标头,我们会看到:

enter image description here enter image description here

除了下载的ZipToken之外,可以从之前的HTML页面中删除此请求所需的所有POST数据。在我单击弹出窗口上的下载按钮后,此令牌仅生成/添加到html表单中,您可以看到它在响应标头中作为cookie返回给我。

总结一下。为了让python脚本为我下载zip文件,我相信我必须模仿这个我无法做到的POST请求,因为zip令牌最初不可访问。如果这令人困惑,我道歉。如果需要更多信息,请告诉我。

post web-scraping zipfile
1个回答
1
投票

我在原始问题中找不到的downloadZipToken POST数据原来是一个unix时间戳,这使得我在HTML源代码中找不到它的原因更加明显。一旦POST请求被发送,我认为它是由一些JS脚本生成的。为了编写我的python代码,我刚刚生成了一个unix时间戳

timeStamp = math.ceil(time.time()*1000)
© www.soinside.com 2019 - 2024. All rights reserved.