web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

R中的Tabulizer包:如何在特定标题后刮取表格

如何从PDF中删除一些带有标题文本的表格?我正在尝试使用tabulizer包。这是从特定页面获取表格的示例(波兰语“公共卫生需求图”)......

回答 2 投票 4

即使在使用webdriverwait并切换到选项后也无法找到Element

我有一个我需要抓的网站。我无法使用selenium的find_element选项来填写搜索词。我尝试过使用webdriverwait和iframe的解决方案...

回答 2 投票 0

Scrapy跟踪来自HTML的链接数据链接(不是href)

我有以下HTML:Next如果我运行我的蜘蛛,它似乎不使用此链接(只有一个href)。无论如何,Scrapy可能......

回答 1 投票 0

Scrapy Spider完成后如何触发Mongodb导入?

我正在使用Scrapy(Python库)来抓取网站并定期生成json输出文件。为了提高效率,我希望每次将这些json文件批量转发到Mongodb中...

回答 3 投票 0

soup.find_all('div',{“class”:“top_first_part clearfix”})当网页中有匹配时返回空列表

请找到下面的代码,从bs4 import中抛出错误BeautifulSoup import urllib url =“https://www.goibibo.com/flights/air-MAA-SIN-20190403--1-0-0-EI/”page = urllib .request.urlopen(URL = ...

回答 2 投票 1

如何拆分字符串以获取联系号码?

我正在尝试从字符串中获取联系号码但是失败了。我的代码:url =“https://www.zillow.com/homes/for_sale/2121711837_zpid/47.285925,-122.4099 25,47.224756,-122.549143_rect / 12_zm / 1_fr //”......

回答 4 投票 -1

如何在任何Web浏览器中运行Puppeteer代码?

我正在尝试使用Puppeteer进行网络抓取,我需要将值检索到我正在构建的网站中。我试图在html文件中加载Puppeteer文件,就像它是一个JavaScript文件一样......

回答 1 投票 0

我能够抓取两个reddit页面,直到某一点,然后我收到一个错误,我不明白为什么

我试图在subreddit页面上进行一些NLP。我有一大堆代码可以收集大量数据两个网页。它会刮擦数据,直到达到范围(40)。这很好,除了我知道......

回答 1 投票 0

如果在Scrapy中使用Javascript,如何做下一页

我有爬行下一个按钮的问题我尝试了基本的一个,但在检查HTML代码后,它使用javascript我尝试了不同的规则,但没有任何作品在这里的链接为...

回答 1 投票 0

从下拉列表中选择给定值,然后单击添加按钮

我可以登录我的网站,然后导航到一个网页,我需要从下拉框中选择一个值,然后点击添加按钮。 (使用vba)。从下拉列表中选择给定值并...

回答 1 投票 1

VBA用于单击链接以启动下载

我是IE自动化的新手。虽然我能够根据td / tr抓取数据,但我无法点击链接下载文件。如何点击链接使用VBA下载文件?...

回答 2 投票 -1

使用Scrapy同时从当前链接和嵌套链接中截取数据

我很擅长使用Scrapy抓取页面。在尝试从各自的链接中删除引用以及每个作者的详细信息时,我遇到了问题。进口scrapy课......

回答 1 投票 0

什么是Java相当于PhantomJS? [关闭]

我想知道是否有任何类似于PhantomJS的Java库。我想要实现的是能够模拟表单登录并从网页提交操作以及执行页面...

回答 3 投票 12

在Puppeteer中进行Web Scraping时如何处理验证码?

我正在使用Puppeteer进行Web Scraping,我刚刚注意到,有时候,我正试图抓取的网站要求验证码,因为我正在通过计算机进行访问。验证码......

回答 2 投票 1

关于数据类型的BeautifulSoup代码问题

我不明白为什么它不起作用。现在我正在处理财务表:https://finance.yahoo.com/quote/ATVI/financials?p = ATVI我没有得到的是find_all方法的结果。当我 ...

回答 4 投票 1

如何从下拉列表中抓取选项并将其存储在表中?

我正在尝试制作一个带有分析的交互式仪表板,基于汽车方面。我希望用户能够选择汽车品牌,例如宝马,奥迪等,并且基于这个选择他只会...

回答 2 投票 2

无法让木偶操作者浏览重新使用相同浏览器的新收集的链接

我已经在节点中创建了一个与puppeteer结合的脚本,以便从站点的登录页面中抓取不同帖子的链接,我的脚本正在完美地完成这项工作。虽然该网站的内容......

回答 1 投票 1

Puppeteer在Google Cloud Functions上的执行速度较慢

我在Google Cloud Functions上使用Puppeteer。经过几次测试后,我发现在Google云端功能基础架构上部署时,我的代码平均需要大约56秒,而同样的......

回答 1 投票 0

特定元素的Xpath

我在从这个网页上抓取特定元素文本时遇到问题:https://www.oddsportal.com/soccer/africa/africa-cup-of-nations/benin-togo-IsfnZDFd/这是存档中特定匹配的网址...

回答 1 投票 0

单击按钮后等待ajax请求解析

等待page.click('。save'); const value = await page。$ eval('。myelement',el => {return el.innerHTML});单击.save按钮会触发更改.myelements值的ajax请求。我如何能 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.