我想从一个网站上抓取过去10年的数据,该数据是一个pdf文件,我想下载,每天都会变化。当我在浏览器中正常打开网站时,pdf 会正常下载,但是当我尝试在 python 中使用 selenium 执行相同操作时,会出现错误。该脚本运行完美,本身没有错误,但 pdf 无法下载。该网站的 robots.txt 不允许对网站的某个区域(例如市场数据)进行网络抓取,但我使用驱动程序打开的网址中没有市场数据,但当我打开网址时该选项卡已被选中。
我尝试使用用户代理,但它不起作用,我在网上找不到任何解决方案,是不是我无法从网站的这一部分中抓取,即使该部分不在我打开的网址中,但在我打开该网址时已被选中(表明该 url 位置是通过市场数据选项卡导航到达的)。此外,如果问题是网站不允许对该选项卡进行网络抓取,是否有任何方法可以解决它并无论如何抓取数据。
这是不道德的。
有一些存档网站提供网站的旧副本。如果过去允许废弃但后来不允许,即使这样你也不应该废弃旧数据。
因为目前网站所有者不希望他/她的网站被废弃。 (即使是较旧的数据)