web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

创建函数以避免R for循环中的url错误

我正在循环遍历一个充满网址的.csv来抓取一个网站(授权抓取)。我正在使用trycatch函数来尝试避免我的for循环中断。但我注意到它停止了一些网址(...

回答 1 投票 0

当html元素没有返回值时如何跳过一行?

以下是我要完成的细分:1)从电子表格中的列表中获取值2)使用该值搜索URL 3)从HTML中获取ElementId并将其添加到电子表格中...

回答 1 投票 0

为什么浏览器无法打开本地保存的HTML页面?

我使用浏览器提供的“另存为”将此页面“https://www.applebees.com/en/locations/results?searchQuery=London”保存到本地文件中。我放入浏览器的地址是:'file:/// users / ...

回答 1 投票 0

无法限制我的脚本来解析网页中的特定部分

我在python中编写了一个脚本来从Ppage中删除Plot中的描述。事情是描述在几个p标签内。还有其他p标签,我不希望......

回答 2 投票 1

python尝试和除了url更正Python 3

我正试图从网页上获取HTML。但是,并非所有URL都已正确编写。列表中的大多数无效URL都包含http,但现在URL正在使用https。有些人遗漏了“www。”,并且......

回答 1 投票 -1

无法在csv文件的不同列中写入不同的项目

我在php中编写了一个脚本来抓取不同标题的帖子及其链接,并将它们写入网页中的csv文件。我希望在A栏写下标题,在B栏写下相关链接。...

回答 1 投票 0

如何通过Selenium和VBA从html中提取第2行和第2列的文本8

使用selenium v ba我想从下面的网页表中获取第二行和第二列值是我尝试的代码,但它捕获了所有表。我想要的输出是8. driver.FindElementByXPath(“// ...

回答 2 投票 1

如何提取被刮图像的文件修改时间?

我正试图抓取包含部件图像的部分网站的一部分,以收集一些统计数据。但是,没有网址或图片上传或创建日期,所以我必须使用近似...

回答 1 投票 3

如何从html页面过滤其中包含文本的HTML节点

我是网络抓取新手,遇到问题我使用BeautifulSoup来抓取网页。我想获得其中包含文本的节点。我尝试使用像这样的汤= ...的get_text()方法

回答 1 投票 1

如何获得匹配给定正则表达式的所有xpath?

是否有任何python库有助于获取与给定正则表达式匹配的dom节点的xpath?我试图从faq页面获取问题和答案对这些是三个不同的...

回答 2 投票 0

如何向下滚动并单击按钮以在python中连续网页抓取页面

我想废弃整个页面以获取帐户的链接,但问题是:我需要多次点击加载更多按钮以获取要废弃的帐户的完整列表有一个偶尔出现的弹出窗口如何...

回答 1 投票 1

如何使用selenium v ba点击网页上的复选框

我有一个查询,如何使用selenium v ba点击网页上的复选框。下面是我要点击的屏幕截图下面是html代码。

回答 3 投票 -1

未能找到该领域的元素,selenium认识到

我在这里尝试了FindElementByName,它似乎应该识别这个名字,但我得到一个没有这样的元素错误...我想念什么?这是在Intacct.com网站上。似乎不是一个独特的......

回答 1 投票 0

我试图用scrapy python刮掉这个网站。我删除了大部分信息,但由于某些原因,xpath不会刮掉一个分区

我正试图抓取这是我的代码Download_links = response.xpath('// div [@class =“download-block”]')。extract()这会返回一个empy列表。为什么我不能只刮这个div?这是......

回答 1 投票 -1

无法在csv文件中写入结果

我在php中编写了一个脚本来获取链接并将它们写在维基百科主页的csv文件中。该脚本会相应地获取链接。但是,我无法在...中填写填充结果

回答 2 投票 1

如何通过以下链接网上搜索反映德州游骑兵赛季的桌子?我正在使用BeautifulSoup4和html.parser

这是我尝试过的:导入请求website_url =“https://en.wikipedia.org/wiki/List_of_Texas_Rangers_seasons”url = requests.get(website_url).text来自bs4 import BeautifulSoup soup = ...

回答 1 投票 0

Python Beautiful Soup包含JSP / JS的页面

我正试图从这个页面中刮取价格:url = https://www.renodepot.com/en/steph-round-base-shower-kit-69375118价格信息在span标签中给出,我无法抓它。 ...

回答 1 投票 0

page.evaluate中的puppeteer引用错误

嗨即时通讯学习木偶无头浏览器,但有一些我不明白1)为什么我不能使用变量作为选择器?这个工作const lastUpdate = await page.evaluate(()=> ...

回答 2 投票 2

使用python beautiful soup或html模块的电子邮件刮刀

目前,我正试图从她发给我的列表中收集我的房地产经纪人的数据。它始终来自主网站“http://v3.torontomls.net”的链接我认为只有房地产经纪人可以进入......

回答 1 投票 0

Excel VBA Web源代码 - 如何将多个字段提取到一个工作表

大家下午好。在对QHarr非常解决的上一个查询的后续跟进中,我想要从源代码而不是仅仅一个来对多个字段运行已解决的查询。 ...

回答 2 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.