Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
我尝试在我的init函数中添加item_count = 0,然后在每个yield item之前添加self.item_count += 1。 之后我添加了 if self.item_count == x time.sleep(y)。 但这似乎不起作用。 我想要...
如何在Scrapy中下载根据Cookies url生成的文件
我正在尝试下载一个文件,该文件的下载链接是根据某些Cookie 生成的。 我有一个在查看器中显示的 PDF 文件,该查看器有一个下载按钮。当我点击这个图标时...
Scrapy Spider 在数百个正确抓取的元素中未找到 2 个 Div 元素
我正在 Jupyternotebook 中使用 Scrapy 来抓取黄页网站,但遇到了一个奇怪的错误。 当用户输入“auto”进行各种输入时,我的代码会抓取黄页的列表视图......
def scrapedPage(URL, user_agent): 如果(不是 os.environ.get('PYTHONHTTPSVERIFY', '') 和 getattr(ssl, '_create_unverified_context', None)): ssl._create_default_https_context = ssl。
Scrapy:CSS 选择器仅从表中提取前两行,我想要每一行
我正在尝试从下页表格的所有 td 中提取文本。我为此使用 CSS 选择器,但不知何故它没有给出任何输出。我在浏览器中仔细检查了我的 CSS 选择器脚本
我试图抓取一些网站。我已经获得了数据,并尝试使用 meta={} 传递值。但是当我使用 Yield scrapy.Request 进入下一个函数时,问题就出现了。我...
我正在尝试使用 Scrapy 抓取数据,但我的 json/csv 是空的。这不是我的第一个爬虫,我真的不明白为什么这不起作用。 这是我的刮刀。 导入scrapy 导入迭代工具 来...
在没有selenium和API的情况下抓取linkedin配置文件
我想通过 URL 抓取 LinkedIn 个人资料 喜欢 ; https://www.linkedin.com/in/andrew-marson-90a74015/ 我想从中获取一些数据 我以前使用过 selenum 但我想让它更快 所以我想用 r...
嗨,我的蜘蛛脚本有问题,我想让我的脚本尽可能可读,并且我想尽可能保存代码。是否可以对不同的 URL 使用相同的解析...
我正在使用 scrapy 来查询访问受限的 api。 def start_requests(自身): self.initialize_gcs_store() url =“https://api.example.com/authenticate” 标题= {'内容-
运行 Scrapyd 的 Cloud Run 突然终止作业且没有任何解释
TL; DR:在云运行中运行的服务突然被终止,找不到任何证据说明原因。 披露:我仍在熟悉 GCP,所以我可能会遗漏一些明显的东西。 我有云...
我对Python和scrape也是新手。尽管如此,我花了几天时间尝试从其档案中抓取新闻文章 - 成功了。 问题是当我抓取文章的内容时 我对 python 和 scrape 都很陌生。尽管如此,我花了几天时间尝试从其档案中抓取新闻文章 - 成功了。 问题是,当我抓取文章的内容时<p>,该内容充满了额外的标签,例如 - strong,a等。因此scrapy不会将其拉出来,我留下的新闻文章包含正文的2/3。将尝试下面的 HTML: <p> According to <a> Japan's newspapers </a> it happened ... </p> 现在我尝试用谷歌搜索并查看这里的论坛。有一些建议,但从我的尝试来看,它不起作用或破坏了我的蜘蛛: 我已阅读有关规范化空间和删除标签的内容,但它不起作用。感谢您提前提供任何见解。 请提供您的选择器以获得更详细的帮助。 鉴于您所描述的内容,我猜您正在选择 p/text() (xml) 或 p::text (css),这不会在 <p> 元素的子元素中获取文本。 您应该尝试选择 response.xpath('//p/descendant-or-self::*/text()') 来获取 <p> 中的文本及其所有子项。 您也可以只选择 <p>,而不是它的文本,您也会得到它的子项。从那里您可以开始清理标签。关于如何做到这一点,有已回答的问题。 你可以使用 string.replace(,) new_string = old_string.replace("<a>", "") 您可以将其集成到一个循环中,该循环迭代包含您要丢弃的所有子字符串的列表。
我正在设置一个新应用程序,我想使用 docker-compose 对其进行打包。目前,在一个容器中,我有一个 Flask-Admin 应用程序,它还公开了一个用于与
如何使用 Scrapy 在同一个 Python 蜘蛛中发出多个表单请求
正如你即将看到的,我刚刚开始学习 Python/Scrapy/编程。我试图弄清楚如何在同一个蜘蛛中执行多个表单请求。我正在尝试抓取数据......
我开始学习如何使用Scrapy www.scrapy.org。 我的问题是我试图从另一个链接内的链接中提取信息。 流程是这样的: 我们输入 www.imdb.com,然后...
我尝试抓取 Instagram,例如我尝试抓取 Nike Instagram。但是,我只想得到图像的描述。标签内的描述图像。我试图展示它,但没有成功。 ...
我使用reddit作为学习scrapy的基础。它工作了一段时间,但现在它总是返回 301 重定向,即使简单地使用“scrapy shell www.reddit.com”调用 shell....
Scrapy 发送条件从 start_requests(self) 解析
我正在抓取一个网站,该网站根据我抓取的项目类型具有不同的行。我有一个工作刮刀,看起来像下面的第一个块代码,但是,我希望能够采取...
Scrapy:如何获取response.status=302的页面内容? [已关闭]
爬取时得到以下日志: 调试:已爬取(302)(参考:http://esf.hz.fang.com/housing/151__1_0_0_0_2_0_0/) 调试:从 &l...
我有以下迷你基本蜘蛛,用于从网站获取所有链接。 从 scrapy.item 导入字段、项目 从 scrapy.contrib.spiders 导入 CrawlSpider,规则 来自 scrapy.contrib.