web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

解析文本文件,使用python从每个行的每个链接上抓取一个图像

我正在尝试打开一个txt文件,每行都有一个http链接,然后让python转到每个链接,找到一个特定的图像,并打印出一个指向该图像的直接链接,FOR EACH页面,在txt中列出...

回答 1 投票 0

无法修改字典中的页码

我在python中编写了一个脚本,使用post请求从网页中获取json内容。如果我只坚持它的默认页面,脚本就可以了。但是,我打算创建一个......

回答 1 投票 1

如何捕获requests.get()异常

我正在为yellowpages.com开发一个web scraper,它似乎总体上运行良好。但是,在遍历长查询的分页时,requests.get(url)将随机返回

回答 2 投票 0

静默填写MS Excel VBA中的Web表单

我正在学习VBA。我想静静地填写一个Web表单,例如Set IE = CreateObject(“internet explorer.Application”)IE.VIsible = False当我用这个加载url时它说我应该使用另一个...

回答 1 投票 0

无法从网页中解析某些名称及其相关网址

我使用requests和BeautifulSoup创建了一个python脚本,用于从网页中解析配置文件名称和指向其配置文件名称的链接。内容似乎是动态生成的,但它们是......

回答 4 投票 0

BeautifulSoup在具有特定类的div中为所有img获取多个元素

我试图在带有id previewImages的div下的img标签中获取图像文件属性(相对链接)的链接(我不想要src链接)。以下是HTML示例:

回答 4 投票 1

如何使用VBA替换或更新“样式”属性值

我正在使用VBA在网站上提供数据。我想更改/替换或更新该网站上“样式”属性的值。 HTML ...

回答 1 投票 0

无法获取解散地图上某些点的所有名称

我在python中编写了一个脚本来解析在点击地图上可用的一些点时填充的每个框的内容。我只想获取不同属性的名称。 mapLink ...

回答 1 投票 0

如何在Python中使用Beautifulsoup刮掉结构不好的html表?

这个网站https://itportal.ogauthority.co.uk/information/well_data/lithostratigraphy_hierarchy/rptLithoStrat_1Page2.html似乎有一个组织得不好的html表。表的唯一标识符......

回答 2 投票 2

Puppeteer:搜索内部文本不区分大小写

我正在尝试使用puppeteer搜索内部文本不区分大小写。我读过这个:不区分大小写的xpath包含()可能吗?例如,我有这样的元素: Test One

回答 3 投票 3

当网址保持不变时(但给出ajax响应),网页刮刮多个网页

我正在尝试在Goodreads.com上对特定书籍的所有评论进行网络搜索。 url = https://www.goodreads.com/book/show/320.One_Hundred_Years_of_Solitude?ac=1&from_search=true这个问题解决了......

回答 1 投票 3

如何修复Excel VBA QueryTables不从网站提取数据

我过去曾使用这段代码从ESPN中为我的幻想棒球联盟中的名单提取数据。我能够获得名单并将它们全部放在Excel中的一列中。然后做一些格式化。 ...

回答 1 投票 0

使用VBA刮取源代码中没有的数据

我试图从一个网站上刮掉整个div。数据在源代码中不可见,它根据URL(链接)中的变量而变化。我一直在寻找任何复制到excel的解决方案......

回答 1 投票 0

python XPath for peoplefinders.com缺少文本项

我正在尝试从peoplefinders.com抓取数据。但我要检索的部分是空的。 page = requests.get(“http://www.peoplefinders.com/peoplesearch/searchresults?search = People&...

回答 2 投票 1

使用beautifulsoup进行Python网络抓取 - 无法从Clinicaltrials.gov中提取首席调查员

(免责声明:我是一个Python和网络抓取菜鸟,但我正在尽力学习)。我正在尝试从clinicaltrials.gov的研究中提取3个关键数据点。他们有一个API,但API ......

回答 3 投票 1

为什么我提交表单网页抓取代码不起作用?

我试着访问这个网站的表:https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php所以你需要选择一个状态“Selecione um ...

回答 1 投票 -1

使用Python对Web内容进行Web抓取

我正试图从这里获取'SALES HISTORY'的数据。由于数据来自JavaScript,我参考了这个链接,试图抓取数据。但是,当我运行以下代码时,新...

回答 1 投票 0

使用带有列表的R表单在POST中刮取数据

我试图通过查看Safari网络选项卡使用我可以看到的API来搜索一些Web数据。如果传递给API,则API似乎无法正确获取表单参数...

回答 1 投票 0

如何刮取存储在列表中的多个链接

我试图通过将每个pagenumber应用到url然后将url存储在列表中来刮取多个url页面。执行迭代时,只刮取第一页的内容......

回答 1 投票 0

使用Python中的Pandas模块将网站中提取的项目写入包含不同长度列表的.xls表格

我是Python编程的初学者,我正在练习从网站上抓取不同的价值观。我从特定网站中提取了项目,现在想将它们写入.xls文件。 ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.