Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
我需要解析此页面“https://xn--80az8a.xn--d1aqf.xn--p1ai/%D1%81%D0%B5%D1%80%D0%B2%D0%B8% D1%81%D1%8B/%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3-%D0%BD%D0%BE%D0%B2% D0%BE%D1%81%D1%82%D1%8...
我需要抓取一个页面,其中: [环形: 有一个长长的列表,其中有一排项目 每行的最后一栏是一个我必须单击的按钮 [环形: 单击该按钮会显示另一个带有附加控件的控件...
我正在学习一门课程。它有点过时了,所以网站上的一些内容发生了变化 https://www.centris.ca/ 基本上它是一个房地产网站,您需要调用 2 个端点才能获得带有 prop 的结果...
是否可以在Scrapy shell中调用Playwright? 我想使用 shell 来测试我的 xpath,我打算将其放置在包含 Scrapy Playwright 的蜘蛛中。 我的 scrapy 设置...
我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。 希望一些学者能够帮助我从 标签中删除所有文本。
我正在使用scrapy导入它。我使用 pyinstaller 构建了 python 文件。构建后,我运行了文件 ./new.py。但弹出错误: FileNotFoundError: [Errno 2] 没有这样的文件或目录: '...
使用 scrapy + Playwright 处理同步与异步
我正在使用 scrapy 和 Playwright 来加载 Google 乔布斯搜索结果页面。剧作家需要能够在浏览器设置中加载页面,然后单击不同的作业以显示详细信息...
我是 ScrapeOps 平台的新手。 我已经使用 scrapy 来运行一些网站。所有脚本在我的机器上一一运行都没有问题。 为了自动安排我的蜘蛛,我正在尝试...
如何使用Scrapy通过css选择器获取<data ..>的值?
这是网站上的 html 元素: 5 这是网站上的 html 元素: <data value="5200" class="text-red-600 font-bold font-arabic undefined"><span class="mr-1">5</span><span class="mr-1">200</span><span class="text-xs font-medium">DT</span></data> 我想获取值“5200”。 这是我尝试过的: bike.css('data::text').get() bike.css('data::value').get() bike.css('data').get() 最后一个获取所有 元素而不是值。 这是我的代码: class BikespiderSpider(scrapy.Spider): name = "bikespider" allowed_domains = ["Domain_here"] start_urls = ["Link_here"] def parse(self, response): bikes = response.css('article.mx-0') for bike in bikes: yield { 'name' : bike.css('h2::text').get(), 'price' : bike.css () } # bikes = response.css("h2::text").getall() bike.css('data::attr(value)').get() 如记录于 https://docs.scrapy.org/en/latest/topics/selectors.html#extensions-to-css-selectors
Scrapysplash无法像我直接在浏览器终端中执行js那样
我最近尝试使用 scrapysplash 从网站上抓取数据,该网站在滚动到底部时会加载更多数据。网址:https://www.openrice.com/zh/hongkong/restaurants/district/%E5%B0%96%E6%B2%9...
网络抓取 Indeed/linkedIn Jobs/Google/Google 地图
我正在寻找如何抓取以下网站的最佳和最有效的解决方案: Indeed.com 领英职位 谷歌地图 谷歌搜索 我现在使用 Scrapingtool Octoparse,但是...
我正在使用 Splash 和 Scrapy 在页面中加载动态渲染的内容,但它没有按我的预期工作。 在setting.py中我设置了这些变量 SPIDER_MIDDLEWARES = { 'scrapy_splash。
错误:信号处理程序捕获错误:scrapy.downloadermiddlewares.offsite.OffsiteMiddleware 对象的绑定方法 OffsiteMiddleware.request_scheduled 位于 0x000002C3EBB5DB50 当我正在开发...
如果我想从start_requests()请求url解析,并且还需要请求切换到下一页,我应该如何组织代码
我正在解析一个新闻网站,起始点main-url是一个新闻列表的网页。 我想解析出新闻的每个子url,并请求这些子url来获取相应的html。那么如果主要-...
scrapy tsv 文件下载。如何在上传到 s3 之前将文件转换为镶木地板
我有一个正在运行的 scrapy 项目,可以下载 tsv 文件并将其保存到 s3。 我使用自定义管道来保存带有日期的原始文件名。 我想知道是否可以转换 tsv
我正在用硒刮擦,scrapy。这里,主要问题是链接init和parse。现在因为解析不接受响应,在解析中错过了 driver.get(url) 的调用 导入scrapy 从 scrapy 导入
在我之前的问题中,我对我的问题不是很具体(使用Scrapy进行经过身份验证的会话进行抓取),希望能够从更一般的答案中推断出解决方案。我
我一直在尝试使用 Scrapy 2.11.2 及其 Scrapy/Playwright 插件 (0.0.34) 从网站上抓取数据。 这是我正在尝试抓取的网站:这里。 问题是网络...
如何在我的任务中以 2 分钟的间隔按顺序(一个接一个)运行蜘蛛? 信号.py @receiver(post_save, 发件人=ParseCategoryUrl) def start_parse_from_category_url(发件人, 创建,
我有一个具有以下结构的小项目: /我的项目 /我的数据 /我的项目 .gitignore 要求.txt scrapy.cfg 安装程序.py setup.py 看起来像这样: # 自动