如何在不被检测到的情况下抓取网站并通过Python使用selenium webdriver绕过reCAPTCHA?

问题描述 投票:-1回答:2

我知道webscraping,我从不同的网站获取数据,我使用python语言和selenium webdriver chrome。但我打电话给一个网站,它是打开头版,然后我点击或去任何其他页面然后网站限制我和网站知道我使用自动镀铬。

python selenium-webdriver web-scraping recaptcha webdriver-w3c-spec
2个回答
1
投票

这可能是因为该网站使用了reCAPTCHA v3,“允许您在没有任何用户交互的情况下验证交互是否合法”。这意味着他们可以在不要求您查看着名的“我不是机器人”框的情况下识别您是否不是人类。该框用于以前版本的reCAPTCHA,v2。

在这里阅读更多关于reCAPTCHA的信息:https://developers.google.com/recaptcha/docs/versions

我认为用Selenium解决这个问题是不可能的。而且,正如已经提到的,网络抓取通常是非法的。


0
投票

如今,网站可以很容易地将您的程序检测为BOT。目前谷歌有4(4)个reCAPTCHA从创建新网站时选择和实施。

  • reKAPTChA采取
  • reCAPTCHA v2(“我不是机器人”复选框)
  • reCAPTCHA v2(隐形reCAPTCHA徽章)
  • reCAPTCHA v2(Android)

但是,有一些通用的方法可以避免在网页抓取时被检测到:

其他

看到:

© www.soinside.com 2019 - 2024. All rights reserved.