如何在不被检测到的情况下抓取网站并通过Python使用selenium webdriver绕过reCAPTCHA？

Question

我知道webscraping，我从不同的网站获取数据，我使用python语言和selenium webdriver chrome。但我打电话给一个网站，它是打开头版，然后我点击或去任何其他页面然后网站限制我和网站知道我使用自动镀铬。

Answer 1

这可能是因为该网站使用了reCAPTCHA v3，“允许您在没有任何用户交互的情况下验证交互是否合法”。这意味着他们可以在不要求您查看着名的“我不是机器人”框的情况下识别您是否不是人类。该框用于以前版本的reCAPTCHA，v2。

我认为用Selenium解决这个问题是不可能的。而且，正如已经提到的，网络抓取通常是非法的。

Answer 2

如今，网站可以很容易地将您的程序检测为BOT。目前谷歌有4（4）个reCAPTCHA从创建新网站时选择和实施。

解

但是，有一些通用的方法可以避免在网页抓取时被检测到：

网站可以确定您的脚本/程序的第一个也是最重要的属性是通过您的显示器大小。所以建议不要使用传统的Viewport。
如果您需要向网站发送多个请求，请继续在每个请求上更改用户代理。在这里你可以找到关于Way to change Google Chrome user agent in Selenium?的详细讨论
为了模拟人类行为，你可能需要减慢脚本执行速度，甚至超过WebDriverWait和expected_conditions诱导time.sleep(secs)。在这里你可以找到关于How to sleep webdriver in python for milliseconds的详细讨论

看到：