我知道webscraping,我从不同的网站获取数据,我使用python语言和selenium webdriver chrome。但我打电话给一个网站,它是打开头版,然后我点击或去任何其他页面然后网站限制我和网站知道我使用自动镀铬。
这可能是因为该网站使用了reCAPTCHA v3,“允许您在没有任何用户交互的情况下验证交互是否合法”。这意味着他们可以在不要求您查看着名的“我不是机器人”框的情况下识别您是否不是人类。该框用于以前版本的reCAPTCHA,v2。
在这里阅读更多关于reCAPTCHA的信息:https://developers.google.com/recaptcha/docs/versions
我认为用Selenium解决这个问题是不可能的。而且,正如已经提到的,网络抓取通常是非法的。
如今,网站可以很容易地将您的程序检测为BOT。目前谷歌有4(4)个reCAPTCHA从创建新网站时选择和实施。
但是,有一些通用的方法可以避免在网页抓取时被检测到:
time.sleep(secs)
。在这里你可以找到关于How to sleep webdriver in python for milliseconds的详细讨论看到: