web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

无法使用python脚本获取api密钥[关闭]

我在python中创建了一个脚本,以便从网页中获取不同的sumbol及其值。我用这个附加链接来收集所需的内容,但我注意到该页面的内容会产生......

回答 1 投票 -1

我可以打开多个Puppeteer浏览器吗?

我正在使用node-cron(它允许你在你的节点程序中运行cron脚本)来运行一些puppeteer抓取。脚本有时会同时运行,这意味着会有多个...

回答 2 投票 0

网页抓取不仅适用于此网站

我使用相同的代码来获取不同网页的价格(特别是7个),所有工作都很完美,但在1中我无法获得任何数据,如果页面有任何数据,你能告诉我是否不可能。 ..

回答 1 投票 0

使用python刮表用于播放器列表

我正试图将EA体育足球桌刮到这个网站:https://www.easports.com/fifa/ultimate-team/fut/database/results?position_secondary=LF,CF,RF,ST,LW, LM,CAM,CDM,CM,RM,RW,...

回答 1 投票 0

在django使用美丽的汤刮网

这段代码工作正常。但我想知道它是如何工作的。任何人都可以帮我解释这段代码吗?来自bs4的scrapper.py导入BeautifulSoup导入请求def scrap(url =“https:// www ....

回答 2 投票 -2

Instagram数据抓取/抓取

抓取或刮掉Instagram是合法的吗?我需要获取一些数据,但我真的不知道我是否应该只使用官方API。您能否参考我可以参考的条款和条件页面...

回答 1 投票 -1

刮网站

我有这个:从bs4导入BeautifulSoup导入请求页面= requests.get(“https://www.marca.com/futbol/primera/equipos.html”)汤= BeautifulSoup(page.content,'html.parser') equipos = ...

回答 2 投票 0

Python web抓取递归(下一页)

来自这个网站:https://search2.ucl.ac.uk/s/search.html?query = max&collect = website-myta&profile = _directory&tab = directory&f .Profile + Type%7Cg = Student&start_rank = 1我需要......

回答 3 投票 -2

我有以下字符串列表但我想应用过滤器,以便我可以从列表中确定某些项目。如何做到这一点?

我试图从以下网站获取图像数据。但是,我得到的数据列表包含不需要的链接。我想应用过滤器,这样我才能得到......

回答 2 投票 2

使用无限滚动刮取动态电子商务页面

我在R中使用rvest做一些刮擦。我知道一些HTML和CSS。我想得到URI的每个产品的价格:http://www.linio.com.co/tecnologia/celulares-telefonia-gps/新项目......

回答 2 投票 20

如何使用Selenium获取SVG图表数据

当在此图表上左右移动鼠标时,是否可以获得弹出窗口中可以看到的值?如果我能看到它,我想我可以抓住它,但我很难找到源...

回答 1 投票 0

图像“src”文本废料和使用beautifulsoup的网页中的tablescrap

我正在尝试网页抓这个页面有两个问题:1)我试图从表中获取数据,这是目前的包详细信息选项卡,但我没有得到任何结果。我的选择路径是......

回答 1 投票 0

如何使用具有相同ID但不同的onclick元素的VBA单击IE上的第二个按钮

我尝试单击IE中具有相同ID,相同类但不同onclick的按钮。我的代码使用第一个按钮,但无法单击第二个按钮。 Onclick元素将调用函数RaiseGdcP1(...

回答 2 投票 1

无法提取html表

我想从给定网站内的表格中使用美丽的汤和python3来收集信息。我也试过使用XPath方法,但仍无法获得获取数据的方法。教练='...

回答 1 投票 -2

Puppeteer无法显示完整的SVG图表

我在Try Puppeteer中使用此代码:const browser = await puppeteer.launch(); const page = await browser.newPage(); await page.goto('https://www.barchart.com/futures/quotes/ESM19/interactive -...

回答 1 投票 0

美丽的汤错误:尝试从网页检索数据返回空数组

我正在尝试使用漂亮的汤从这个网页下载投票意向民意调查列表。但是,我写的代码返回一个空数组或没有。我使用的代码如下:......

回答 1 投票 2

拆分复杂字符串复杂字符串

我正在开发一个桌面基础搜索控制器,我需要根据检查分割复杂的页面源。我无法拆分它。任何人都可以帮助HtmlAgilityPack.HtmlWeb web = new HtmlAgilityPack ....

回答 1 投票 0

如何使用Web抓取来废弃视图页面源上的Inspect元素中的数据

我尝试在特定网站上进行webscraping。但是我无法获得标签。我在Inspect元素和viewpage源中看到了标签。如何获取标签可以请你给我任何建议。来自bs4的WebScrapy.py ...

回答 1 投票 -1

我无法使用Google表格IMPORTXML来抓取这个网站 - 是否被封锁?

我试图使用Google表格上的ImportXML功能来抓取这个网站,虽然我可以从“head”标签获取信息,但我无法从“body”标签中获取任何信息。例如,功能......

回答 1 投票 1

网络抓取带有困难节点的分页网站

我在抓ASN数据库(http://aviation-safety.net/database/)。我已经编写了代码来分析每一年(1919-2019)并刮除除死亡之外的所有相关节点(代表...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.