web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

关于数据类型的BeautifulSoup代码问题

我不明白为什么它不起作用。现在我正在处理财务表:https://finance.yahoo.com/quote/ATVI/financials?p = ATVI我没有得到的是find_all方法的结果。当我 ...

回答 4 投票 1

如何从下拉列表中抓取选项并将其存储在表中?

我正在尝试制作一个带有分析的交互式仪表板,基于汽车方面。我希望用户能够选择汽车品牌,例如宝马,奥迪等,并且基于这个选择他只会...

回答 2 投票 2

无法让木偶操作者浏览重新使用相同浏览器的新收集的链接

我已经在节点中创建了一个与puppeteer结合的脚本,以便从站点的登录页面中抓取不同帖子的链接,我的脚本正在完美地完成这项工作。虽然该网站的内容......

回答 1 投票 1

Puppeteer在Google Cloud Functions上的执行速度较慢

我在Google Cloud Functions上使用Puppeteer。经过几次测试后,我发现在Google云端功能基础架构上部署时,我的代码平均需要大约56秒,而同样的......

回答 1 投票 0

特定元素的Xpath

我在从这个网页上抓取特定元素文本时遇到问题:https://www.oddsportal.com/soccer/africa/africa-cup-of-nations/benin-togo-IsfnZDFd/这是存档中特定匹配的网址...

回答 1 投票 0

单击按钮后等待ajax请求解析

等待page.click('。save'); const value = await page。$ eval('。myelement',el => {return el.innerHTML});单击.save按钮会触发更改.myelements值的ajax请求。我如何能 ...

回答 1 投票 1

如何使用Excel VBA单击IE中的js按钮?

我想在Excel Vba中创建一个代码来帮助我单击网站中的js图像按钮。这是我尝试过的。子测试()Dim即As Object Set ie = New InternetExplorer WebPage =“http://myweb.com”...

回答 2 投票 0

错误 - 无法获取网址:https://www.google.com/search?num = 20&q = searchquery“

背景我正在使用Google表格检查Google搜索中是否出现一系列字符串:= IMPORTXML(CONCATENATE(“https://www.google.com/search?num=20&q=”,CHAR(34),A1, CHAR(34)),...

回答 2 投票 1

使用Scrapy刮取相关新闻

我想使用Scrapy废弃Snopes事实检查网站。在这里,我想根据用户给出的输入找出相关新闻。用户给出一个单词,Scrapy爬虫将返回相关新闻。为......

回答 1 投票 0

如何从我从网站上抓取的数据创建数据框?

我正试图从工作发布数据中抓取网站,输出如下:[{'job_title':'初级数据科学家','公司':'\ n \ n BBC',摘要':“\ n我们......

回答 2 投票 1

为什么我在使用硒时只能获得首页数据?

我使用python包selenium自动点击“加载更多”按钮,这是成功的。但是为什么在“加载更多”之后我无法获取数据?我想使用python从imdb抓取评论。 ...

回答 2 投票 2

如何使用Jsoup通过HTTPS连接?

它在HTTP上运行良好,但是当我尝试使用HTTPS源时,它会引发以下异常:10-12 13:22:11.169:WARN / System.err(332):javax.net.ssl.SSLHandshakeException:java.security ....

回答 9 投票 22

无法使用puppeteer从网页中获取名称

我在节点中创建了一个与puppeteer结合的脚本,以获取填写网页输入时填充的名称。以下是如何获得该名称 - 打开该网页后,......

回答 1 投票 0

Scrapy - 刮掉所有物品而不是1件物品

我需要刮掉所有物品,但只有一件物品刮掉。我的代码工作正常,但当我将它转移到其他项目,这是相同的代码,这发生我不知道为什么我需要得到所有...

回答 1 投票 0

无法刮擦这个网站。如何从这个网站抓取数据?

我不能从这个网站上抓取数据。我试过其他网站,但它可以与其他网站...从bs4导入BeautifulSoup来自urllib.request import urlopen response = urlopen(“https:// www ....

回答 2 投票 -2

使用rvest或RSelenium在框架内创建自动webscrape表

我知道有很多资源/问题可以解决这个问题,但我已经尝试了好几天,似乎无法弄明白。我以前有过webscraped网站,但这个是......

回答 1 投票 1

查找HTML按钮元素引用(类,标记等)以便VBA自动单击?

我正在尝试从我们公司的一个使用HTML的公司内部网站提取数据。我试图点击的按钮是一个CSV按钮,但尽管尝试了不同的方法,我无法让VBA找到这个...

回答 1 投票 1

从网站获取html字符集 - 非UTF-8格式的元标记

我尝试检索封装在中的编码 一个HTML网站。在上面给出的html我想...

回答 2 投票 1

我怎样才能从网站“flipkart.com”中删除评论

我无法理解选择哪个类,我尝试了不同的选择器类,但它返回空列表我尝试了以下代码。从bs4 import导入请求为req ...

回答 1 投票 -1

如何在python 3中获取此站点中的json数据?

我的工作基本上是: - 在这个网站上进行访问“https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php” - 填写2个表格(AC - Acre和Bujari,for ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.