如何抓取 robots.txt 不允许的网站？

Question

我想从一个网站上抓取过去10年的数据，该数据是一个pdf文件，我想下载，每天都会变化。当我在浏览器中正常打开网站时，pdf 会正常下载，但是当我尝试在 python 中使用 selenium 执行相同操作时，会出现错误。该脚本运行完美，本身没有错误，但 pdf 无法下载。该网站的 robots.txt 不允许对网站的某个区域（例如市场数据）进行网络抓取，但我使用驱动程序打开的网址中没有市场数据，但当我打开网址时该选项卡已被选中。

我尝试使用用户代理，但它不起作用，我在网上找不到任何解决方案，是不是我无法从网站的这一部分中抓取，即使该部分不在我打开的网址中，但在我打开该网址时已被选中（表明该 url 位置是通过市场数据选项卡导航到达的）。此外，如果问题是网站不允许对该选项卡进行网络抓取，是否有任何方法可以解决它并无论如何抓取数据。

Answer 1

这是不道德的。

有一些存档网站提供网站的旧副本。如果过去允许废弃但后来不允许，即使这样你也不应该废弃旧数据。

因为目前网站所有者不希望他/她的网站被废弃。（即使是较旧的数据）

如何抓取 robots.txt 不允许的网站？

问题描述投票：0回答：1

1个回答

最新问题

如何抓取 robots.txt 不允许的网站？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1