最初为Perl开发的自动Web浏览库,现在还有Python和Ruby实现。
我正在尝试使用 Perl 的 WWW::Mechanize 废弃 ASPX 页面。问题是我要抓取的页面只有在登录后才能访问。我尝试使用 HTML::TreeBuilderX::ASP_NET mod...
使用 Ruby、Nokogiri 和 Mechanize 网页中的 java cookies 链接进行解析
大家。 我需要解析一个为每个链接设置了 java cookie 的网页。我可以解析正常的搜索,并且每个产品都会显示并导入到 mysql 数据库中。 我能够从
所以我对网络抓取相当陌生。这个网站上有一个表格,表格的值是由Javascript控制的。这些值将决定我的未来值的地址...
所以我有一段Python代码,它运行在一个美味的页面上,并从中删除一些链接。 extract 方法包含一些神奇的功能,可以提取所需的内容。然而,运行...
我想做的就是这个 我有一个带有 ip|port 的代理列表 现在 Mechanize 正在使用这些代理,我已经设置了 打开超时= 20 读取超时= 20 我想要它做的是重试,但它会...
我正在尝试自动登录一个网站,该网站的登录表单具有以下 HTML 代码(摘录): 我正在尝试自动登录一个网站,其登录表单具有以下 HTML 代码(摘录): <tr> <td width="60%"> <input type="text" name="username" class="required black_text" maxlength="50" value="" /> </td> <td> <input type="password" name="password" id="password" class="required black_text" maxlength="50" value="" /> </td> <td colspan="2" align="center"> <input type="image" src="gifs/login.jpg" name="Login2" value="Login" alt="Login" title="Login"/> </td> </tr> 我正在使用python的mechanize模块进行网页浏览。以下是代码: br.select_form(predicate=self.__form_with_fields("username", "password")) br['username'] = self.config['COMMON.USER'] br['password'] = self.config['COMMON.PASSWORD'] try: request = br.click(name='Login2', type='image') response = mechanize.urlopen(request) print response.read() except IOError, err: logger = logging.getLogger(__name__) logger.error(str(err)) logger.debug(response.info()) print str(err) sys.exit(1) def __form_with_fields(self, *fields): """ Generator of form predicate functions. """ def __pred(form): for field_name in fields: try: form.find_control(field_name) except ControlNotFoundError, err: logger = logging.getLogger(__name__) logger.error(str(err)) return False return True return __pred 不知道我做错了什么...... 谢谢 该网站有可能在登录期间使用java脚本进行回发。我记得很清楚,对于 ASP .Net 站点,您需要获取隐藏表单字段,例如 VIEWSTATE 和 EVENTTARGET 并将它们发布到新 Page 。 您为什么不发送问题网站的链接?之后就变得相对容易弄清楚了 尝试使用 Selenium 和 PhantomJS from selenium import PhantomJS import platform if platform.system() == 'Windows': # .exe for Windows PhantomJS_path = './phantomjs.exe' else: PhantomJS_path = './phantomjs' service_args = [ # Proxy (optional) '--proxy=<>', '--proxy-type=http', '--ignore-ssl-errors=true', '--web-security=false' ] browser = PhantomJS(PhantomJS_path, service_args=service_args) browser.set_window_size(1280, 720) # Window size for screenshot (optional) login_url = "<url_here>" # Credentials Username = "<insert>" Password = "<insert>" # Login browser.get(login_url) browser.save_screenshot('login.png') print browser.current_url browser.find_element_by_id("<username field id>").send_keys(Username) browser.find_element_by_id("<password field id>").send_keys(Password) browser.find_element_by_id("<login button id>").click() print (browser.current_url) browser.get(scrape_url) print browser.page_source browser.quit() ''' python 和 pycharm 设置路径变量 点维辛检查 包管理器 python 如何安装新版本 python最新版本 - python 3.7.2 用户环境变量 蟒蛇 pyton 中的命令行 '''
我目前正在尝试使用 WWW::Mechanize 创建 Perl webspider。 我想做的是创建一个网络蜘蛛,它将抓取整个网站的 URL(由用户输入)并提取...
如何处理 IncompleteRead:在 python 中
我正在尝试从网站获取一些数据。然而它返回给我不完整的阅读。我试图获取的数据是一组巨大的嵌套链接。我在网上做了一些研究,发现这可能......
我试图用 python 脚本暴力破解 Facebook 登录页面,但是每当我运行代码时,我都会收到以下错误。我的代码是: br = mechanize.Browser() br.set_handle_equiv(True) br.
为什么 mechanize 无法通过 pip 在 RPi 上正确安装? (蟒蛇3.9)
我无法在 virtualenv 中使用 Debian Bullseye、python 3.9 在 Raspberry Pi(即 ARM 芯片)上成功安装软件包“mechanize”。 当我查看 virtualenv 的 sitepackages 文件夹时,我...
403 => Net::HTTPForbidden for https://www.state.gov/countries-areas-archive/tunisia/page/2/——未处理的响应(Mechanize::ResponseCodeError) 这是我在控制台中读到的,我希望报废...
Python 在 Windows 上找不到 SSL 密钥的标准默认路径
说实话,我不太清楚为什么会出现这个错误,我一直使用相同的开发环境大约3个月,为了学习,今天坐下来学习我来了acro。 ..
试图在网站上选择 <textarea> 并提交? (使用 Python 机械化)
我正在尝试在 https://keywordsheeter.com/ (name="findersearchQueryInput") 上提交文本区域,然后我希望能够将提交的文本区域的结果打印到我的控制台。 我试...
我正在尝试使用 BeautifulSoup 从 LinkedIn 抓取一些网页,但我不断收到错误“HTTP 错误 999:请求被拒绝”。有没有办法避免这个错误。如果你看看我的代码,...
我目前正在将 facebook 集成到我当前的应用程序中,并且我已经使用以下代码成功检索了 access_token: url = "#{url}?#{client_id}&#{client_secret}&#{code}&a...
网站 https://login.nzz.ch/?msg=logout-success&target=https%3A%2F%2Fabo.nzz.ch%2F&sso=1 显然有一个名为 form id="c1-logiform-controln-form" 的登录表单 然而代码 ...
当我使用 mechanize、selenium 库运行一个网址(本例中为 "www.maps.google.com")时,Chrome 打开后会有一个说明,说 "Chrome 正在被一个自动测试软件控制"。但是...
Python Mechanize:提交按钮没有属性 "click",无法使用。
在这个网页上有一个表格:https:/www.avanza.semina-sidorkontooversikt.html 我试图用这个来填写和提交。# -*- 编码:utf-8 -*- import cookielib import urllib2 import ...。
我正在为一些现有的python代码编写一个函数,该函数将通过Mechanize浏览器对象作为参数传递。我在浏览器的表单中填写了一些详细信息,并使用response = browser.submit(...
您好,我需要检查url页面中是否包含诸如'good'之类的文本。我正在使用机械化功能,在此网站上看到了一些回复,其他人则没有响应。我看到了'''.body.include?()''',但是没有...