Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。
我正试图通过本网站(https://www.backpacker.com/gear/editors-choice-2018)的每个项目的标题和描述来获取列出的齿轮奖。我已经能够抓取信息......
运行时错误'424':对象必需IE.Document.GetElementById
我正在尝试使用excel文件的值在网站上自动填写表单。 Sub CommandButton1_Click()Dim IE As Object Dim objElement As Object Dim objCollection As Object Set IE = CreateObject(“...
如何从PDF中删除一些带有标题文本的表格?我正在尝试使用tabulizer包。这是从特定页面获取表格的示例(波兰语“公共卫生需求图”)......
即使在使用webdriverwait并切换到选项后也无法找到Element
我有一个我需要抓的网站。我无法使用selenium的find_element选项来填写搜索词。我尝试过使用webdriverwait和iframe的解决方案...
我有以下HTML:Next如果我运行我的蜘蛛,它似乎不使用此链接(只有一个href)。无论如何,Scrapy可能......
Scrapy Spider完成后如何触发Mongodb导入?
我正在使用Scrapy(Python库)来抓取网站并定期生成json输出文件。为了提高效率,我希望每次将这些json文件批量转发到Mongodb中...
soup.find_all('div',{“class”:“top_first_part clearfix”})当网页中有匹配时返回空列表
请找到下面的代码,从bs4 import中抛出错误BeautifulSoup import urllib url =“https://www.goibibo.com/flights/air-MAA-SIN-20190403--1-0-0-EI/”page = urllib .request.urlopen(URL = ...
我正在尝试从字符串中获取联系号码但是失败了。我的代码:url =“https://www.zillow.com/homes/for_sale/2121711837_zpid/47.285925,-122.4099 25,47.224756,-122.549143_rect / 12_zm / 1_fr //”......
我正在尝试使用Puppeteer进行网络抓取,我需要将值检索到我正在构建的网站中。我试图在html文件中加载Puppeteer文件,就像它是一个JavaScript文件一样......
我能够抓取两个reddit页面,直到某一点,然后我收到一个错误,我不明白为什么
我试图在subreddit页面上进行一些NLP。我有一大堆代码可以收集大量数据两个网页。它会刮擦数据,直到达到范围(40)。这很好,除了我知道......
我有爬行下一个按钮的问题我尝试了基本的一个,但在检查HTML代码后,它使用javascript我尝试了不同的规则,但没有任何作品在这里的链接为...
我可以登录我的网站,然后导航到一个网页,我需要从下拉框中选择一个值,然后点击添加按钮。 (使用vba)。从下拉列表中选择给定值并...
我是IE自动化的新手。虽然我能够根据td / tr抓取数据,但我无法点击链接下载文件。如何点击链接使用VBA下载文件?...
我很擅长使用Scrapy抓取页面。在尝试从各自的链接中删除引用以及每个作者的详细信息时,我遇到了问题。进口scrapy课......
我想知道是否有任何类似于PhantomJS的Java库。我想要实现的是能够模拟表单登录并从网页提交操作以及执行页面...
在Puppeteer中进行Web Scraping时如何处理验证码?
我正在使用Puppeteer进行Web Scraping,我刚刚注意到,有时候,我正试图抓取的网站要求验证码,因为我正在通过计算机进行访问。验证码......
我不明白为什么它不起作用。现在我正在处理财务表:https://finance.yahoo.com/quote/ATVI/financials?p = ATVI我没有得到的是find_all方法的结果。当我 ...
我正在尝试制作一个带有分析的交互式仪表板,基于汽车方面。我希望用户能够选择汽车品牌,例如宝马,奥迪等,并且基于这个选择他只会...
我已经在节点中创建了一个与puppeteer结合的脚本,以便从站点的登录页面中抓取不同帖子的链接,我的脚本正在完美地完成这项工作。虽然该网站的内容......
Puppeteer在Google Cloud Functions上的执行速度较慢
我在Google Cloud Functions上使用Puppeteer。经过几次测试后,我发现在Google云端功能基础架构上部署时,我的代码平均需要大约56秒,而同样的......