我正在使用 selenium 进行爬行项目,但我很难处理特定的网页(chrome 和 firefox)。
我发现了 2 个可以在一定程度上发挥作用的解决方法,但我想知道为什么会出现此问题以及如何避免它。
1)手动打开chrome,然后使用我的用户配置文件打开selenium。 如果我手动启动 chrome 然后运行:
from selenium import webdriver
options.add_argument(r"user-data-dir=C:\Users\User\AppData\Local\Google\Chrome\User Data")
driver = webdriver.Chrome(options=options)
页面按预期加载
2)在请求中传递变量 通过将
/?anything
附加到 url,页面将按 selenium 中的预期加载
由于某种原因,该网页在标题中具有一个功能,尽管未加载...我怀疑这可能是一个线索,但我不知道足以确定原因。
如果有人发现了什么,我会弄清楚,这与网站的机器人检测安全措施有关。 我最终开始使用木偶师,木偶师具有额外的隐秘性和模仿人类行为的能力。