scrapy 相关问题

Scrapy是一个用Python编写的快速开源高级屏幕抓取和Web爬行框架，用于抓取网站并从其页面中提取结构化数据。它可用于各种用途，从数据挖掘到监控和自动化测试。

我尝试在我的init函数中添加item_count = 0，然后在每个yield item之前添加self.item_count += 1。之后我添加了 if self.item_count == x time.sleep(y)。但这似乎不起作用。我想要...

web-scraping scrapy

回答 2 投票 0

如何在Scrapy中下载根据Cookies url生成的文件

我正在尝试下载一个文件，该文件的下载链接是根据某些Cookie 生成的。我有一个在查看器中显示的 PDF 文件，该查看器有一个下载按钮。当我点击这个图标时...

python .net cookies scrapy

回答 1 投票 0

Scrapy Spider 在数百个正确抓取的元素中未找到 2 个 Div 元素

我正在 Jupyternotebook 中使用 Scrapy 来抓取黄页网站，但遇到了一个奇怪的错误。当用户输入“auto”进行各种输入时，我的代码会抓取黄页的列表视图......

python web-scraping xpath scrapy css-selectors

回答 1 投票 0

无法从亚马逊抓取产品价格

def scrapedPage(URL, user_agent): 如果（不是 os.environ.get('PYTHONHTTPSVERIFY', '') 和 getattr(ssl, '_create_unverified_context', None))： ssl._create_default_https_context = ssl。

python-3.x web-scraping beautifulsoup scrapy

回答 1 投票 0

Scrapy：CSS 选择器仅从表中提取前两行，我想要每一行

我正在尝试从下页表格的所有 td 中提取文本。我为此使用 CSS 选择器，但不知何故它没有给出任何输出。我在浏览器中仔细检查了我的 CSS 选择器脚本

python web-scraping scrapy

回答 2 投票 0

使用元的Scrapy传递值从未更新过

我试图抓取一些网站。我已经获得了数据，并尝试使用 meta={} 传递值。但是当我使用 Yield scrapy.Request 进入下一个函数时，问题就出现了。我...

python web-scraping python-requests scrapy

回答 1 投票 0

空提取结果 - Scrapy

我正在尝试使用 Scrapy 抓取数据，但我的 json/csv 是空的。这不是我的第一个爬虫，我真的不明白为什么这不起作用。这是我的刮刀。导入scrapy 导入迭代工具来...

python web-scraping scrapy

回答 2 投票 0

在没有selenium和API的情况下抓取linkedin配置文件

我想通过 URL 抓取 LinkedIn 个人资料喜欢 ; https://www.linkedin.com/in/andrew-marson-90a74015/ 我想从中获取一些数据我以前使用过 selenum 但我想让它更快所以我想用 r...

selenium-webdriver web-scraping scrapy

回答 2 投票 0

如何使用Scrapy以相同的解析方式抓取多个URL？

嗨，我的蜘蛛脚本有问题，我想让我的脚本尽可能可读，并且我想尽可能保存代码。是否可以对不同的 URL 使用相同的解析...

web-scraping scrapy

回答 1 投票 0

scrapy 一段时间后更新访问令牌

我正在使用 scrapy 来查询访问受限的 api。 def start_requests(自身): self.initialize_gcs_store() url =“https://api.example.com/authenticate” 标题= {'内容-

python scrapy

回答 1 投票 0

运行 Scrapyd 的 Cloud Run 突然终止作业且没有任何解释

TL； DR：在云运行中运行的服务突然被终止，找不到任何证据说明原因。披露：我仍在熟悉 GCP，所以我可能会遗漏一些明显的东西。我有云...

google-cloud-platform scrapy google-cloud-run scrapyd

回答 1 投票 0

Scrapy - 清理嵌套链接中的文本[/p][/a]等

我对Python和scrape也是新手。尽管如此，我花了几天时间尝试从其档案中抓取新闻文章 - 成功了。问题是当我抓取文章的内容时我对 python 和 scrape 都很陌生。尽管如此，我花了几天时间尝试从其档案中抓取新闻文章 - 成功了。问题是，当我抓取文章的内容时，该内容充满了额外的标签，例如 - strong，a等。因此scrapy不会将其拉出来，我留下的新闻文章包含正文的2/3。将尝试下面的 HTML： According to <a> Japan's newspapers </a> it happened ... 现在我尝试用谷歌搜索并查看这里的论坛。有一些建议，但从我的尝试来看，它不起作用或破坏了我的蜘蛛：我已阅读有关规范化空间和删除标签的内容，但它不起作用。感谢您提前提供任何见解。请提供您的选择器以获得更详细的帮助。鉴于您所描述的内容，我猜您正在选择 p/text() (xml) 或 p::text (css)，这不会在 元素的子元素中获取文本。您应该尝试选择 response.xpath('//p/descendant-or-self::*/text()') 来获取 中的文本及其所有子项。您也可以只选择 ，而不是它的文本，您也会得到它的子项。从那里您可以开始清理标签。关于如何做到这一点，有已回答的问题。你可以使用 string.replace(,) new_string = old_string.replace("<a>", "") 您可以将其集成到一个循环中，该循环迭代包含您要丢弃的所有子字符串的列表。

web-scraping scrapy

回答 2 投票 0

在 Docker 容器中运行 Scrapy

我正在设置一个新应用程序，我想使用 docker-compose 对其进行打包。目前，在一个容器中，我有一个 Flask-Admin 应用程序，它还公开了一个用于与

docker scrapy docker-compose

回答 2 投票 0

如何使用 Scrapy 在同一个 Python 蜘蛛中发出多个表单请求

正如你即将看到的，我刚刚开始学习 Python/Scrapy/编程。我试图弄清楚如何在同一个蜘蛛中执行多个表单请求。我正在尝试抓取数据......

python forms web-scraping scrapy

回答 1 投票 0

Scrapy - 如何从嵌套链接中提取信息

我开始学习如何使用Scrapy www.scrapy.org。我的问题是我试图从另一个链接内的链接中提取信息。流程是这样的：我们输入 www.imdb.com，然后...