web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

Python web抓取递归(下一页)

来自这个网站:https://search2.ucl.ac.uk/s/search.html?query = max&collect = website-myta&profile = _directory&tab = directory&f .Profile + Type%7Cg = Student&start_rank = 1我需要......

回答 3 投票 -2

我有以下字符串列表但我想应用过滤器,以便我可以从列表中确定某些项目。如何做到这一点?

我试图从以下网站获取图像数据。但是,我得到的数据列表包含不需要的链接。我想应用过滤器,这样我才能得到......

回答 2 投票 2

使用无限滚动刮取动态电子商务页面

我在R中使用rvest做一些刮擦。我知道一些HTML和CSS。我想得到URI的每个产品的价格:http://www.linio.com.co/tecnologia/celulares-telefonia-gps/新项目......

回答 2 投票 20

如何使用Selenium获取SVG图表数据

当在此图表上左右移动鼠标时,是否可以获得弹出窗口中可以看到的值?如果我能看到它,我想我可以抓住它,但我很难找到源...

回答 1 投票 0

图像“src”文本废料和使用beautifulsoup的网页中的tablescrap

我正在尝试网页抓这个页面有两个问题:1)我试图从表中获取数据,这是目前的包详细信息选项卡,但我没有得到任何结果。我的选择路径是......

回答 1 投票 0

如何使用具有相同ID但不同的onclick元素的VBA单击IE上的第二个按钮

我尝试单击IE中具有相同ID,相同类但不同onclick的按钮。我的代码使用第一个按钮,但无法单击第二个按钮。 Onclick元素将调用函数RaiseGdcP1(...

回答 2 投票 1

无法提取html表

我想从给定网站内的表格中使用美丽的汤和python3来收集信息。我也试过使用XPath方法,但仍无法获得获取数据的方法。教练='...

回答 1 投票 -2

Puppeteer无法显示完整的SVG图表

我在Try Puppeteer中使用此代码:const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://www.barchart.com/futures/quotes/ESM19/interactive -...

回答 1 投票 0

美丽的汤错误:尝试从网页检索数据返回空数组

我正在尝试使用漂亮的汤从这个网页下载投票意向民意调查列表。但是,我写的代码返回一个空数组或没有。我使用的代码如下:......

回答 1 投票 2

拆分复杂字符串复杂字符串

我正在开发一个桌面基础搜索控制器,我需要根据检查分割复杂的页面源。我无法拆分它。任何人都可以帮助HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack ....

回答 1 投票 0

如何使用Web抓取来废弃视图页面源上的Inspect元素中的数据

我尝试在特定网站上进行webscraping。但是我无法获得标签。我在Inspect元素和viewpage源中看到了标签。如何获取标签可以请你给我任何建议。来自bs4的WebScrapy.py ...

回答 1 投票 -1

我无法使用Google表格IMPORTXML来抓取这个网站 - 是否被封锁?

我试图使用Google表格上的ImportXML功能来抓取这个网站,虽然我可以从“head”标签获取信息,但我无法从“body”标签中获取任何信息。例如,功能......

回答 1 投票 1

网络抓取带有困难节点的分页网站

我在抓ASN数据库(http://aviation-safety.net/database/)。我已经编写了代码来分析每一年(1919-2019)并刮除除死亡之外的所有相关节点(代表...

回答 1 投票 0

来自xpath的'text()'返回错误,无效的参数

使用contains('text','some text')有效,但我想检查它是否只包含我正在插入的内容..我发现包含(text()=“some text”),但它返回为无效争论..你能告诉我......

回答 1 投票 0

VBA:从HTMLTable中抓取确切的元素

请问您能帮我理解如何在表中找到带有类名bptable的标签吗?我收到Object不支持这种方法,我不知道如何解决这个问题。子...

回答 2 投票 1

如何使用python中的beautifulsoup从“span”标签中使用“data-reactid”进行网络抓取?

我试图从雅虎财经中提取股票的实时价格数据。此信息包含在“span”标记中,其中包含“class”和“data-reactid”。我无法从中提取信息......

回答 4 投票 3

在特定div的span类中获取文本

我正在抓住T-Mobile网站上的三星Galaxy S9评论。我能够为HTML代码创建一个Beautiful Soup对象,但我无法获取内部存在的评论文本...

回答 3 投票 -1

如何在手风琴Python中抓取隐藏文本

我写了一个简单的脚本,返回澳大利亚赌博网站的具体信息。它运作良好,但是我在打开每个手风琴掉落时自动化很麻烦......

回答 1 投票 2

使用requests_html进行抓取时如何获取最后一个元素

我尝试用requests_html废弃一些东西。有几个div标签包含我想要废弃的类名。我知道你可以选择first = True的第一个元素,因为它是:...

回答 1 投票 0

R在具有非动态URL的多级网站上进行网页抓取

如果我没有找到关于此问题的上一个主题,我会道歉。我想抓这个网站http://www.fao.org/countryprofiles/en/特别是,这个页面包含很多国家的链接......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.