web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何在响应状态中检测到代码500时自动增加scrapy的DOWNLOAD_DELAY

我将编写数百个蜘蛛来抓取不同的静态网页,所以我选择Scrapy来帮助我完成我的工作。在工作期间,我发现大多数网站都很简单,不...

回答 1 投票 1

Python3 - web scraping zomato - 多个页面

我似乎无法为第1页以外的任何内容生成输出(一页有15家餐厅,这就是我得到的(只有15个输出)。看起来第一页的输出被第二页替换了......

回答 2 投票 2

刮网页的问题。 (PHP)

我是PHP的新手。我会为网页获得一些价值,我遇到的问题不能刮不到这个页面。这是什么特别的页面?我希望得到这个值我检查附加图片。我试过史努比......

回答 1 投票 -2

Instagram故事刮刀:这个过程是什么?

我正在尝试编写一个Web抓取python程序,用来登录用户的故事。我认为看看我是否能够正常工作会很有趣,因为4k Stogram只需花钱...

回答 1 投票 0

Puppeteer只关注按钮而不是单击按钮

尝试自动化点击网站页面上的按钮的过程,但它只关注按钮而不是点击它。我尝试过使用puppeteer click()功能和焦点+按输入功能无...

回答 2 投票 0

查询框架内的选择器

我正在用Puppeteer / JS构建一个简单的刮刀。我试图从页面中获取一个段落数组,html如[本图] [1]中所示。当我使用id(#iframeContent)时,我什么都没得到。 ...

回答 1 投票 1

Instagram刮痧:我如何保存故事?

我正在编写一个Instagram故事刮刀以获得乐趣,因为为什么不这样,我已经到了我需要下载故事文件但是图像/视频的来源不在......

回答 1 投票 1

即使一个失败,确保循环继续进行API调用

如果我在python中的while / for循环中使用覆盆子pi请求来自API的数据并将数据附加到csv并且由于有故障的wifi连接之类的东西而导致一次迭代失败,那么......

回答 2 投票 0

在excel vba中进行Web Scraping,无论如何要加快进程?

我正在使用VBA excel中的web-scraper。由于我正在抓取的网站的机制,我必须通过excel进行,因为该网站是一个政府平台,通过文件验证...

回答 1 投票 0

如何使用Puppeteer刮取reddit页面?

我正在努力学习使用Puppeteer来刮取reddit页面。新的reddit动态添加了内容和无限滚动。我从代码中得到了非常不一致的结果并且很难...

回答 1 投票 2

使用excel VBA不会刮取跨度id值

虽然现在的页面结构没有变化,但我有Excel代码从nowgoal.com中删除匹配结果,最近停止了工作.Cell AF2包含“1”什么控制哪些行数据...

回答 1 投票 0

使用vba在网页文本框中添加值

我想在网页文本框中添加值,但会出现对象错误。我不能提供网址,因为它不会在办公室外工作。下面的html代码:文本框:

回答 2 投票 -2

R - 使用rvest来刮取谷歌+评论

作为一个项目的一部分,我正试图从Google +中删除完整的评论(在以前的其他网站上的尝试中,我的评论被更多的内容截断,除非你点击,否则会隐藏完整评论...

回答 1 投票 1

如何连接两个单独的字符串

我需要加入两个字符串。第一个字符串=日期:(MegaMillions2019 =(date.strftime(“%m%d%Y”)))第二个字符串=结果:(results ='\ n'.join([','。join(已解析[ i])我在范围内(len(...

回答 4 投票 3

Php curl请求返回'405 Not Allowed',还有其他的抓取方法吗?

我正在使用php curl,我的代码正在为其他网站工作,但当我请求此网址https://i.local.ch/#q?q=manager&origin=&rid=ac8EV&sort=relevance时它返回:405 Not Allowed .. 。

回答 1 投票 0

为什么我不能通过 BeautifulSoup 抓取亚马逊? [关闭]

这是我的python代码: 导入 urllib2 从 bs4 导入 BeautifulSoup page = urllib2.urlopen("http://www.amazon.com/") 汤 = BeautifulSoup(页面) 打印汤 它适用于 google.com 和 m...

回答 4 投票 0

如何从任何网址页面获取数据来抓取评论

假设您有一个游戏商店评论页面,其中有数百人定期评论。我的想法是不仅在同一页面上从Play商店评论页面获取数据,而且当你...

回答 1 投票 -4

网络抓取在学校的项目

我正在尝试使用Selenium从页面中抓取数据。我上周做了,但本周发生了一些变化,现在它不再起作用了。问题是“显示更多”按钮,或“Prikažibloj”,因为你......

回答 2 投票 1

检测何时加载网页而不使用睡眠

我在Windows上创建一个VB脚本,在IE中打开一个站点。我想要的:检测网页何时加载并显示消息。我通过使用sleep(WScript.Sleep)来实现这一目标。秒......

回答 2 投票 5

使用Excel VBA单击网站中的复选框

有一个网站有一些我想要的工作数据。我登录检查一些复选框并提交,然后该网站将向我发送一封包含我的数据的电子邮件。但收到我的...需要太长时间

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.