web-scraping 相关问题

Web抓取是从不易提供API或其他自动数据检索方法的网站中提取特定信息的过程。关于“如何开始使用刮擦”(例如使用Excel VBA)的问题应该*进行彻底的研究*,因为有许多功能代码示例可供使用。 Web抓取方法包括第三方应用程序,定制软件的开发,甚至是标准化方式的手动数据收集。

如何使用 Jsoup 和 java 从该网站的按钮上抓取“85”?

tesco.com 的 html 请帮助我,我很困惑,很累,我只是觉得我已经精疲力尽了。我想从该页面中过滤掉 85,但我不知道该怎么做 字符串 url = "...

回答 1 投票 0

Yahoo_fin API 中的 get_day_gainers() 函数和其他几个函数无法工作并抛出错误

Yahoo_fin 几天前工作正常,我的整个项目工作正常,但今天当我运行相同的代码时它不起作用。我已经使用“from yahoo_fin.stock...”导入了所有函数...

回答 0 投票 0

为什么我总是出现白屏,即使我在无头模式下运行

这里是脚本,我尝试了所有驱动程序msedgedriver和chromedriver图像 从硒导入网络驱动程序 从 selenium.webdriver.chrome.service 导入服务 来自

回答 1 投票 0

使用PyPasser生成的reCaptchaV3令牌仍然会导致身份验证错误

我正在尝试使用 Python 的 requests 库对网站进行身份验证,该网站使用 reCAPTCHA v3 进行登录。我尝试使用 pypasser 库生成有效的 reCAPTCHA 令牌,但我

回答 1 投票 0

Playwright Python 的代理问题

全部。所以,我将 Brightdata 代理与剧作家代码一起使用 - 从 playwright.sync_api 导入sync_playwright 导入操作系统 导入时间 def 运行(): 以sync_playwright()作为p:

回答 1 投票 0

YouTube 字幕抓取工具随机失败,并显示“无法找到视频字幕”

我正在尝试使用 youtube-captions-scraper 包获取 YouTube 视频字幕。大多数时候,它工作得很好,但有时会失败并出现以下错误:找不到字幕...

回答 1 投票 0

lst.append(float(n.text[-3:])) ValueError:无法将字符串转换为浮点数:''

我正在尝试编写 Prime 视频抓取代码,但收到此错误,并且我无法解决此错误(无法将字符串转换为浮点数): [14500:11368:0328/150755.021:错误:device_event_log_impl...

回答 1 投票 0

scrapy 响应返回 None 值

我想从此页面抓取 id="hotel_address" 下的位置坐标。 类 CrawlerSpider(scrapy.Spider): name='爬虫' headers={'用户代理': 'Mozilla/5.0(Linux;A...

回答 1 投票 0

“如何从BeautifulSoup中带有ID的表获取数据?

我正在尝试使用 BeautifulSoup 和 requests 库从 id='stats_standard' 的表中获取数据,但是我尝试了各种方法,例如使用 find 和 select,但我仍然没有收到...

回答 1 投票 0

需要有关创建发布请求和取回值的指导

我正在尝试制作一个需要从中抓取数据的网络服务。问题是我需要从中获取数据的站点位于一个包含分页的 asp gridview 中。所以我需要的是,r...

回答 1 投票 0

在必须首先进行身份验证时,是否有更快的方法来使用 scrapy 抓取预定义的 URL 列表?

我有两只scrapy Spider: Spider 1 抓取产品链接列表(~10000)并使用 feed 将它们保存到 csv 文件中。它不会访问每个链接,只会访问类别(具有多个页面......

回答 1 投票 0

Etsy - 获取销售额

我正在尝试获取特定产品在 Etsy 上的销售额信息,但我在官方 Etsy 甚至第三方 API 上找不到 API 请求。 我知道以下服务正在得到......

回答 2 投票 0

如何从 YieldWatch 中获取“净资产”?

我想按照以下方式抓取一个网站: 前往产量观察 在地址文本框中输入 0xF54274757Bf717B1ab52bA0d3a7CbF635f856a0d,然后单击双筒望远镜 刮掉“网络...

回答 4 投票 0

哪个部分被认为是响应的“解析”,另一个补充部分叫什么?

考虑以下网页抓取代码的通用示例 # 1.发送请求 url = 'https://example.com' 响应 = requests.get(url) # 2. 响应的“解析” 汤 = BeautifulSoup(res...

回答 1 投票 0

Chrome 更新后 Selenium headless 崩溃了

本周末更新 google chrome 后,使用 Selenium python API 的无头模式在 Windows 中运行时会弹出一个空白窗口。 我在 Debian VM 上运行的相同代码不...

回答 1 投票 0

使用 Google Apps 脚本将 Kickserv API 中的报告数据提取到 Google 表格中

我想将 Kickserv 中的数据报告提取到 Google 表格中,我已经能够通过发出 fetch 请求并格式化 HTML 内容来获取数据。代码如下所示: 功能流程Htm...

回答 1 投票 0

抓取 HTML 内容时结果数组中的元素加倍

我正在浏览旧页面,其中包含超过 10 000 条评论,我正尝试将其导入到 WordPress。 我正在使用 simple_html_dom.php 库,在本例中这并不重要。 我正在做的是

回答 2 投票 0

403 抓取网站时出现禁止错误,用户代理已使用并更新。有什么想法吗?

正如上面的标题所述,我收到 403 错误。生成的 URL 是有效的,我可以打印它们,然后在浏览器中打开它们就可以了。 我有一个用户代理,它与我的

回答 2 投票 0

如何获取包含shadowRoot元素的文档或节点中的所有HTML

这个问题我还没有看到满意的答案。这基本上是这个问题的重复,但它关闭不当并且给出的答案不充分。 我已经想出了自己的

回答 3 投票 0

将 Scrapy 指向本地缓存,而不是执行正常的蜘蛛抓取过程

我正在使用管道将 Scrapy 抓取的文档缓存到数据库中,这样如果我更改项目解析逻辑,我就可以重新解析它们,而无需再次访问服务器。 什么是最好的...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.