web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

刮表时'列表索引超出范围'问题

我正在尝试从维基百科页面中删除表格https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M我得到了html,找到了包含我想要的表格的部分:

回答 2 投票 1

如何从网页中删除特定ID

我需要做一些房地产市场研究,并为此需要价格,以及新房的其他价值。所以我的想法是去我获取信息的网站。去主要 - ...

回答 1 投票 2

管理木偶操作员的内存和性能

我正在使用puppeteer来抓取一些页面,但我很好奇如何在节点应用程序的生产中管理它。我将在一天内刮掉多达500,000页,但这些刮擦工作将在......

回答 2 投票 4

使用BeautifulSoup进行刮擦时,我遇到的这些不同错误是什么?

我正在试图抓住这个名为whoscored.com的网站,这里是我用来刮掉它的特定页面的简单代码。导入请求将pandas导入为bs4中的pd导入BeautifulSoup headers = ...

回答 1 投票 0

Puppeteer - 协议错误(Page.navigate):目标已关闭

正如您在下面的示例代码中所看到的,我正在使用Puppeteer与Node中的一组工作人员通过给定的URL运行多个网站截图请求:const cluster = require('cluster'); ...

回答 1 投票 4

使用Python和BeautifulSoup启动Web Scraping - 分步教程中的错误

按照本教程关于使用Python和BeautifulSoup进行Web Scraping来学习绳索 - 但是Pycharm会返回一个我不明白的错误你好!试过上面提到的......

回答 1 投票 1

麻烦我的脚本打印无如果没有结果显示

我在节点中使用request和cheerio创建了一个脚本,以从网页中获取不同帖子的标题及其相关链接。我的脚本可以正确的方式获取它们。事情就是......

回答 2 投票 0

使用Python从网站上刮取和排序日期

我试图从网站的某些结果中排序日期。我找到了标签之间的日期

回答 1 投票 2

如何使用正则表达式从两个相似的html类元素中提取数据?

如何使用python正则表达式从以下html片段中提取向上投票(215)和向下投票(82)计数?

回答 2 投票 1

如何更改我的代码以从HTML代码获取URL链接?

我尝试使用beautifulsoup4来删除python中HTML代码的URL,但是我得到了如下错误:AttributeError:'NoneType'对象没有属性'get'HTML code:

回答 1 投票 2

如何使用BS4捕获异常跨度标签中的数据?

我正在努力抓一个网站工作,我不能得到美丽的汤来刮取不寻常标签之间的某些文字。我只搜索了一个span标签,它显示在结果中但是我...

回答 2 投票 0

如何制作一个解析名称为“patch”或“fix?”的链接的webcrawler。

我正在尝试为Debian GSoC项目的应用程序任务编程,我已经能够解析从Internet下载的文本文件,但我很难从...下载补丁。

回答 1 投票 1

单击导航栏可以正常工作。但HTML href指向其他东西

我正在尝试收集BCC Research市场分析报告中的一些元数据。他们拥有不同主题的数据,如先进材料,生物技术等。如果你在一个主题下,说...

回答 1 投票 0

无法使用python脚本获取api密钥[关闭]

我在python中创建了一个脚本,以便从网页中获取不同的sumbol及其值。我用这个附加链接来收集所需的内容,但我注意到该页面的内容会产生......

回答 1 投票 -1

我可以打开多个Puppeteer浏览器吗?

我正在使用node-cron(它允许你在你的节点程序中运行cron脚本)来运行一些puppeteer抓取。脚本有时会同时运行,这意味着会有多个...

回答 2 投票 0

网页抓取不仅适用于此网站

我使用相同的代码来获取不同网页的价格(特别是7个),所有工作都很完美,但在1中我无法获得任何数据,如果页面有任何数据,你能告诉我是否不可能。 ..

回答 1 投票 0

使用python刮表用于播放器列表

我正试图将EA体育足球桌刮到这个网站:https://www.easports.com/fifa/ultimate-team/fut/database/results?position_secondary=LF,CF,RF,ST,LW, LM,CAM,CDM,CM,RM,RW,...

回答 1 投票 0

在django使用美丽的汤刮网

这段代码工作正常。但我想知道它是如何工作的。任何人都可以帮我解释这段代码吗?来自bs4的scrapper.py导入BeautifulSoup导入请求def scrap(url =“https:// www ....

回答 2 投票 -2

Instagram数据抓取/抓取

抓取或刮掉Instagram是合法的吗?我需要获取一些数据,但我真的不知道我是否应该只使用官方API。您能否参考我可以参考的条款和条件页面...

回答 1 投票 -1

刮网站

我有这个:从bs4导入BeautifulSoup导入请求页面= requests.get(“https://www.marca.com/futbol/primera/equipos.html”)汤= BeautifulSoup(page.content,'html.parser') equipos = ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.