scrapyd 相关问题

`Scrapyd`是管理`Scrapy`项目的守护进程。该项目曾经是“scrapy”本身的一部分,但被分离出来,现在是一个独立的项目。它在一台机器上运行,允许您部署(也称为。上传)您的项目并使用JSON Web服务控制它们包含的蜘蛛。

Scrapy 无法在 Scrapyd 启动的同一路径中写入 JSON 文件

我使用Scrapy获取网站信息,然后将信息写入JSON文件。 由Scrapy本身启动它可以正常工作,但是当我由Scrapyd启动它时,我发现JSON文件不是

回答 1 投票 0

Scrapy无法写入Scrapyd启动的JSON文件

我使用Scrapy获取网站信息,然后将信息写入JSON文件。 由Scrapy本身启动它可以正常工作,但是当我由Scrapyd启动它时,我发现JSON文件不是

回答 1 投票 0

如何优化Scrapyd服务器上的内存使用?

在处理大规模抓取(500,000 - 100,000,000 个项目)时,随着时间的推移,Scrapyd 服务器开始消耗所有可用内存(62 GB)。即使没有物品并且服务器处于...

回答 1 投票 0

Scrapyd:如何用一个命令取消所有作业?

我正在运行超过 40 个蜘蛛,到目前为止,这些蜘蛛都是通过 cron 调度并通过 scrapy scrapy 爬行发布的。由于多种原因,我现在切换到 scrapyd,其中之一是能够查看哪些作业是

回答 1 投票 0

运行 Scrapyd 的 Cloud Run 突然终止作业且没有任何解释

TL; DR:在云运行中运行的服务突然被终止,找不到任何证据说明原因。 披露:我仍在熟悉 GCP,所以我可能会遗漏一些明显的东西。 我有云...

回答 1 投票 0

部署到scrapyd的spider如何读取环境变量?

TL;博士: load_env() 在本地加载环境变量,但在 scrapyd 中运行时不会加载 细节 我有一个scrapy项目需要读取一些环境变量。这些变量可以在 .en...

回答 1 投票 0

关于初学者Scrapy和scrapy爬行的问题

我最近开始尝试使用Scrapy学习网页抓取。最近我尝试通过 books.toscrape.com 进行 Scrapycrawl。根据终端显示,Scrapycrawl 调用工作正常,但事实并非如此

回答 1 投票 0

scrapyd 部署失败

回溯(最近一次调用最后一次): 文件“/usr/local/bin/scrapyd-deploy”,第 273 行,位于 主要的() 文件“/usr/local/bin/scrapyd-deploy”,第 95 行,在 main 中 蛋,tmpdir = _build_egg() 文件“/usr/

回答 3 投票 0

“在 Windows 上使用 scrapyd-deploy 将 Scrapy 项目部署到 Scrapyd 时出现权限错误”

我正在尝试使用 scrapyd-deploy 将 Scrapy 项目部署到 Windows 环境上的 Scrapyd,但遇到了 PermissionError。 这是我的环境: 操作系统:Windows 10 Python版本:3.11

回答 1 投票 0

无法在Scrapy的Settings.py中检索Scrapyd部署的环境变量

我是 Scrapy 新手,目前正在尝试将我的蜘蛛部署到 Scrapyd 服务器。但是,我遇到了一个问题,我似乎无法在 Scrapy 设置文件中使用 os.getenv 。 这是嗬...

回答 1 投票 0

Scrapy 自动化

我正在作为一名初级数据科学家从事一个项目 在我抓取了几个网站后,他们要求我自动化抓取过程 我使用 scrapy 作为这个问题的框架,并使用 mongoDB 来解决...

回答 1 投票 0

使用 Schedule.json 将 PHP 中的 CURL 转换为 SCRAPYD 不返回任何内容

我已经在我的服务器上设置了Scrapyd,一切似乎都工作正常。我可以使用 CURL 来获取我的蜘蛛列表,就像这样curl -u super:secret http://111.111.111.111:6800/listspiders.json?pro...

回答 1 投票 0

在scrapyd中,如何通过schedule api传递FEED_URI值

我希望 scrapyd 在云上运行我的蜘蛛,为此我想将 FEED_URI 的值作为 scrapyd 命令中的参数传递。 目前我在自定义设置中使用以下配置来存储

回答 1 投票 0

Python 废弃网站,但第一次渲染后会出现一些 HTML

我正在尝试使用Python获取网站的代码。问题是,当我尝试使用 cloudscraper 创建 GET 请求时,它返回以 HTML 生成的即时代码。 在这个网站上,有些...

回答 1 投票 0

如何使用scrapyd暂停和恢复爬行?

我想在我的蜘蛛项目中坚持下去 使用 scrapyd,但我不太清楚该怎么做。 像 scrapy 一样暂停和恢复

回答 0 投票 0

如何在云上部署硒驱动的蜘蛛?

我使用scrapyd在本地机器上部署和调度我的蜘蛛。我现在面临的挑战是部署我的蜘蛛,用无头浏览器执行。我在日志文件中得到两个错误,在 ...

回答 1 投票 0

如何在scrapyd中向类变量传递命令行关键字参数?

我正在做一个scrapy项目。我想知道如何将一个参数传递给spider类。我想把关键字参数(file_path='C:\')传递给我的spider类中的字典变量。我尝试...

回答 1 投票 0

Scrapyd-Deploy。由于使用os路径设置目录而导致的错误。

我试图通过scrapyd-deploy部署一个scrapy项目到远程scrapyd服务器。这个项目本身是有功能的,在我的本地机器上和远程服务器上都能完美地工作,当我部署它时......

回答 1 投票 1

如何在scrapyd中向类变量传递命令行关键字参数?

我正在做一个scrapy项目。我想知道如何从scrapyd api-call中传递一个参数到spider类。我想把关键字参数(file_path='C:\')传递到字典变量中。

回答 2 投票 0

scrapyd:如何将文件包含到deployd包中?

我可以在本地运行一个爬虫,从scrapy项目内部的本地文件中读取一些输入。用scrapyd-deploy部署失败,因为本地文件不在包里。 在 ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.