scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

scrapy 2.11.2 | ModuleNotFoundError：没有名为“scrapy.cmdline”的模块

我创建了一个虚拟环境，并通过pip安装了scrapy，但是当我运行scrapy命令时，出现以下错误。我希望有人遇到过这个问题并能够帮助解决问题。

scrapy

回答 1 投票 0

Selenium Click() 不适用于 scrapy 蜘蛛

我正在尝试使用 scrapy 蜘蛛从列表页面抓取产品页面的链接。该页面显示前 10 台机器，并有一个调用一些 javascript 的“显示所有机器”按钮。

javascript selenium-webdriver click web-crawler scrapy

回答 2 投票 0

让 scrapy 和 pytest 与 AsyncioSelectorReactor 一起使用

重现我的问题蟒蛇3.12.1 爬虫2.11.2 pytest 8.2.1 在 bookspider.py 中我有：从输入 import Iterable 导入scrapy 从 scrapy.http 导入请求类 BookSpider(scrapy.Spider)...

python scrapy pytest python-asyncio twisted

回答 1 投票 0

KeyError：'playwright_page'

async def errback_close_page(self, failure): 页面 = failure.request.meta["playwright_page"] 等待页面.close() def start_requests(自身): 如果不是 self.start_urls 和

scrapy playwright playwright-python

回答 1 投票 0

AttributeError：模块“OpenSSL.SSL”没有属性“SSLv3_METHOD”

使用定义的 url 运行 scrapy shell 后，我收到属性错误，显示以下错误： AttributeError：模块“OpenSSL.SSL”没有属性“SSLv3_METHOD” scrapy外壳...

python python-3.x web-scraping scrapy

回答 6 投票 0

如何构建像 Ahrefs 这样可扩展的网络抓取和数据分析基础设施？

我正在寻求构建一个可扩展的基础设施，用于网络抓取和数据分析，类似于 Ahrefs 所做的事情。我需要以下技术方面的建议：网页抓取框架：什么是...

mongodb web-scraping neo4j scrapy bigdata

回答 1 投票 0

如何在一个Python脚本中调用2个Scrapy蜘蛛？

我正在使用Scrapy CrawlSpider类来爬取电子商务网站的类别页面。问题是，大约 5% 的请求在 5 次重试后被拒绝，并且不会达到已知的 100%

python scrapy

回答 2 投票 0

使用 URL 链接抓取网页内容

编写了一个蜘蛛代码，用于抓取标题、url 链接和其中的内容。导入scrapy 从 scrapy.selector 导入选择器类 FoolSpider(scrapy.Spider): 名字=“傻瓜” def start_reque...

web-scraping scrapy

回答 1 投票 0

Scrapy-Selenium 加载更多按钮

我编写了一段代码，用于通过加载更多按钮来抓取网站。我只在按钮之前获取内容。导入scrapy 从 load_more.items 导入 LoadMoreItem 从 scrapy_selenium 导入

python selenium-webdriver scrapy

回答 1 投票 0

Scrapy 使用带有规则的 start_requests

我找不到任何使用带有规则的start_requests的解决方案，而且我还没有在互联网上看到任何关于这两个的示例。我的目的很简单，我想重新定义 start_request 函数以获得一个

scrapy web-crawler

回答 3 投票 0

强迫我的scrapy蜘蛛停止爬行

当特定条件为真时（例如 scrap_item_id == predefine_value ），是否有机会停止抓取。我的问题类似于 Scrapy - 如何识别已经抓取的网址，但我想......

python scrapy

回答 5 投票 0

异步启动请求scrapy

嗨，我用 scrapy 编写了一段代码，它可以工作，但是当我将其更改为异步代码时，我收到此错误 [等待 process.crawl(WebSpider, start_urls=urls) 文件“/home/z/PycharmProjects/news-link-

python async-await scrapy

回答 1 投票 0

Django Scrapy TypeError：RepoSpider.start_requests() 缺少 1 个必需的位置参数：'url'

我正在尝试构建一个网络应用程序来从存储库获取数据。它已接近完成，但我目前面临这个错误。代码：这是蜘蛛代码导入scrapy 从 App.models 导入 Repo 班级

python-3.x django scrapy

回答 1 投票 0

Python 中的 Scrapy 安装问题

来自 scrapy 导入选择器 # 导入请求导入请求 url = 'https://en.wikipedia.org/wiki/巴基斯坦' # 获取网页的HTML内容响应 = requests.get(url) # 创建 Se...

python html css web-scraping scrapy

回答 1 投票 0

Scrapy 函数未调用

每当我使用 parse_quote 函数时，什么也没有发生，我只是得到一个空白的 CSV 文件，但如果我将所有报价项放入解析函数中，它就能够抓取报价。我究竟做错了什么？定义...

web-scraping scrapy scrapy-splash

回答 1 投票 0

使用 LinkExtactor Scrapy 提取链接时排除 CSS

我一直在进行 3 级深度爬行，我需要排除一些 CSS 类，如页眉和页脚，我尝试使用属性“restrict_css”和 :not(“#header”...

python scrapy

回答 1 投票 0

Scrapy 网络爬虫尽管最初工作正常，但仍陷入无限循环。

好吧，我正在开发一个基于scrapy的网络爬虫，具有一些简单的功能。该机器人应该从一个页面转到另一个页面，解析然后下载。我已经让解析器开始工作了，我已经

python-2.7 scrapy

回答 1 投票 0

Selenium 单击存储在变量中的已知元素

我正在使用Scrapy和Selenium。 scrapy 完成一些工作后，我将可点击元素存储在变量中，因此我认为 driver.find_element_by 不是必需的，因为元素已经已知。所以我...

selenium web-scraping scrapy

回答 1 投票 0

DEBUG：第 3 行的规则，没有任何用户代理在 Python Scrapy 上强制执行它

我正在尝试使用 Scrapy CrawlSpider 类从网站上抓取内容，但我被以下响应阻止。我想上面的错误与我的爬虫的用户代理有关。所以我...

python python-requests scrapy

回答 2 投票 0

Scrapy - 将 Feed Exporter Overwrite 设置为 True

我开发了一个Scrapy蜘蛛，我想在不使用命令行的情况下执行它。这就是我使用 CrawlerProcess 的原因。我还希望将输出保存到 json 文件中。饲料出口商是完美的...

python scrapy export

回答 1 投票 0

scrapy 相关问题

最新问题