scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

Scrapy:解析有关新建筑的网站返回 None

我需要解析此页面“https://xn--80az8a.xn--d1aqf.xn--p1ai/%D1%81%D0%B5%D1%80%D0%B2%D0%B8% D1%81%D1%8B/%D0%BA%D0%B0%D1%82%D0%B0%D0%BB%D0%BE%D0%B3-%D0%BD%D0%BE%D0%B2% D0%BE%D1%81%D1%82%D1%8...

回答 1 投票 0

Octoparse:需要首先与重复控件交互时进行抓取

我需要抓取一个页面,其中: [环形: 有一个长长的列表,其中有一排项目 每行的最后一栏是一个我必须单击的按钮 [环形: 单击该按钮会显示另一个带有附加控件的控件...

回答 1 投票 0

抓取语言更改

我正在学习一门课程。它有点过时了,所以网站上的一些内容发生了变化 https://www.centris.ca/ 基本上它是一个房地产网站,您需要调用 2 个端点才能获得带有 prop 的结果...

回答 1 投票 0

剧作家的Scrapy shell

是否可以在Scrapy shell中调用Playwright? 我想使用 shell 来测试我的 xpath,我打算将其放置在包含 Scrapy Playwright 的蜘蛛中。 我的 scrapy 设置...

回答 3 投票 0

仅 Scrapy 正文

我正在尝试使用 python Scrapy 仅从正文中抓取文本,但还没有任何运气。 希望一些学者能够帮助我从 标签中删除所有文本。

回答 2 投票 0

scrapy 上的 Pyinstaller 错误?

我正在使用scrapy导入它。我使用 pyinstaller 构建了 python 文件。构建后,我运行了文件 ./new.py。但弹出错误: FileNotFoundError: [Errno 2] 没有这样的文件或目录: '...

回答 1 投票 0

使用 scrapy + Playwright 处理同步与异步

我正在使用 scrapy 和 Playwright 来加载 Google 乔布斯搜索结果页面。剧作家需要能够在浏览器设置中加载页面,然后单击不同的作业以显示详细信息...

回答 1 投票 0

ScrapeOps 平台上未发现蜘蛛

我是 ScrapeOps 平台的新手。 我已经使用 scrapy 来运行一些网站。所有脚本在我的机器上一一运行都没有问题。 为了自动安排我的蜘蛛,我正在尝试...

回答 1 投票 0

如何使用Scrapy通过css选择器获取<data ..>的值?

这是网站上的 html 元素: 5 这是网站上的 html 元素: <data value="5200" class="text-red-600 font-bold font-arabic undefined"><span class="mr-1">5</span><span class="mr-1">200</span><span class="text-xs font-medium">DT</span></data> 我想获取值“5200”。 这是我尝试过的: bike.css('data::text').get() bike.css('data::value').get() bike.css('data').get() 最后一个获取所有 元素而不是值。 这是我的代码: class BikespiderSpider(scrapy.Spider): name = "bikespider" allowed_domains = ["Domain_here"] start_urls = ["Link_here"] def parse(self, response): bikes = response.css('article.mx-0') for bike in bikes: yield { 'name' : bike.css('h2::text').get(), 'price' : bike.css () } # bikes = response.css("h2::text").getall() bike.css('data::attr(value)').get() 如记录于 https://docs.scrapy.org/en/latest/topics/selectors.html#extensions-to-css-selectors

回答 1 投票 0

Scrapysplash无法像我直接在浏览器终端中执行js那样

我最近尝试使用 scrapysplash 从网站上抓取数据,该网站在滚动到底部时会加载更多数据。网址:https://www.openrice.com/zh/hongkong/restaurants/district/%E5%B0%96%E6%B2%9...

回答 1 投票 0

网络抓取 Indeed/linkedIn Jobs/Google/Google 地图

我正在寻找如何抓取以下网站的最佳和最有效的解决方案: Indeed.com 领英职位 谷歌地图 谷歌搜索 我现在使用 Scrapingtool Octoparse,但是...

回答 2 投票 0

Scrapysplash不加载动态内容

我正在使用 Splash 和 Scrapy 在页面中加载动态渲染的内容,但它没有按我的预期工作。 在setting.py中我设置了这些变量 SPIDER_MIDDLEWARES = { 'scrapy_splash。

回答 1 投票 0

Selenium 和 Scrapy 组合

错误:信号处理程序捕获错误:scrapy.downloadermiddlewares.offsite.OffsiteMiddleware 对象的绑定方法 OffsiteMiddleware.request_scheduled 位于 0x000002C3EBB5DB50 当我正在开发...

回答 1 投票 0

如果我想从start_requests()请求url解析,并且还需要请求切换到下一页,我应该如何组织代码

我正在解析一个新闻网站,起始点main-url是一个新闻列表的网页。 我想解析出新闻的每个子url,并请求这些子url来获取相应的html。那么如果主要-...

回答 1 投票 0

scrapy tsv 文件下载。如何在上传到 s3 之前将文件转换为镶木地板

我有一个正在运行的 scrapy 项目,可以下载 tsv 文件并将其保存到 s3。 我使用自定义管道来保存带有日期的原始文件名。 我想知道是否可以转换 tsv

回答 1 投票 0

403 禁止结合使用 selenium 和 scrapy

我正在用硒刮擦,scrapy。这里,主要问题是链接init和parse。现在因为解析不接受响应,在解析中错过了 driver.get(url) 的调用 导入scrapy 从 scrapy 导入

回答 1 投票 0

在 Scrapy 中使用经过身份验证的会话进行爬网

在我之前的问题中,我对我的问题不是很具体(使用Scrapy进行经过身份验证的会话进行抓取),希望能够从更一般的答案中推断出解决方案。我

回答 5 投票 0

Scrapy Playwright 仅渲染网站的一部分

我一直在尝试使用 Scrapy 2.11.2 及其 Scrapy/Playwright 插件 (0.0.34) 从网站上抓取数据。 这是我正在尝试抓取的网站:这里。 问题是网络...

回答 1 投票 0

Scrapy 芹菜

如何在我的任务中以 2 分钟的间隔按顺序(一个接一个)运行蜘蛛? 信号.py @receiver(post_save, 发件人=ParseCategoryUrl) def start_parse_from_category_url(发件人, 创建,

回答 1 投票 0

Python - 如何向egg添加目录?

我有一个具有以下结构的小项目: /我的项目 /我的数据 /我的项目 .gitignore 要求.txt scrapy.cfg 安装程序.py setup.py 看起来像这样: # 自动

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.