web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何使用selenium chromedriver和google收集>100k新闻文章URL进行数据分析?

我必须从大约 5 个网站收集大约 2017 年到 2024 年的互联网新闻文章的文本数据。这是数万/数十万篇文章。我有办法抓取其中一些 URL

回答 1 投票 0

如何通过playwright提取google的按钮元素?

我有一个代码片段,可以通过Python中的Playwright从网页的DOM树中提取可输入和可点击的节点元素(即交互式元素)。 这段代码几乎可以正常工作......

回答 1 投票 0

如何用Python爬取电影?

我正在尝试下载第60届金马奖放映的电影《石门》。我发现了一个流媒体链接: https://www.fofoyy.com/dianying/96937 我无法...

回答 1 投票 0

在必须首先进行身份验证时,是否有更快的方法来使用 scrapy 抓取预定义的 URL 列表?

我有两只scrapy Spider: Spider 1 抓取产品链接列表(~10000)并使用 feed 将它们保存到 csv 文件中。它不会访问每个链接,只会访问类别(具有多个页面......

回答 1 投票 0

无法在某些网站上使用剧作家执行无限滚动

我正在爬行https://kick.com/browse/categories,每次滚动时它都会加载某个类别的新卡片。我使用剧作家尝试了多种方法,但没有一个有效。 将不胜感激...

回答 1 投票 0

Scrapy 返回无值,或者根本没有文本

我正在寻找一些当地的汽车网站来跟踪价格,这样当它们开始“促销”时,我实际上可以判断它是否属实。 我已经完成了 books.toscrape 网站。我为g制作了一个追踪器...

回答 1 投票 0

如果所有的URL都一样我该怎么写代码?

我正在尝试从此网站收集有关运动员的信息: https://olympics.com/en/paris-2024/athletes。总页数223页,每页包含50名运动员的信息。 我

回答 1 投票 0

最快的抓取网页或调用 API 的服务(尤其是 iTunes)?

我们每天需要下载所有 iOS 应用程序的元数据。我们计划通过爬行 iTunes 网站并使用 iTunes 搜索 API 来提取信息。由于有超过 70 万个应用程序,我们

回答 1 投票 0

Python-Requests (>= 1.*):如何禁用保持活动状态?

我正在尝试使用请求模块编写一个简单的网络爬虫程序,我想知道如何禁用其默认保持活动功能。 我尝试使用: s = requests.session() s.config['

回答 4 投票 0

Ahrefs/MOZ/SEMRUSH 如何在 Google 限制搜索时抓取 SERP 数据

营销工具巨头(例如 Ahrefs、Moz、SEMRUSH 等)如何能够抓取数千个关键字的 SERP 数据,因为 Google 甚至限制独立用户(如果他们只进行几十次搜索)...

回答 2 投票 0

在 Puppeteer 中针对同一网站列表并行运行两个浏览器实例

我为网络爬虫编写了 javascript 代码,该爬虫在单个浏览器实例中从网站列表(在 csv 文件中)中抓取数据(代码如下)。现在我想修改以下场景的代码...

回答 1 投票 0

Google PageSpeed Insight 给我一条错误消息:无法解析。尝试检查 URL 的有效性

我在测试我的网站时收到来自 Google PageSpeed Insight 的错误消息。 无法解析 https://www.shoppersgossip.com/。尝试检查 URL 的有效性。 恐怕会影响SEO。 霍斯...

回答 1 投票 0

使用带有加载更多按钮的 Apify 进行网页抓取

我正在尝试使用 Apify-Smart Article Extractor 从网站上抓取新闻文章。但是,该网页包含一个“加载更多”按钮,需要单击该按钮才能显示所需的内容

回答 1 投票 0

使用 JavaScript 在 SPA 中抓取更新表数据的问题

我正在为构建为单页应用程序(SPA)的服务开发一个爬虫。 我不确定使用的框架是 React、Angular 还是其他框架。我的爬虫与桌子交互

回答 1 投票 0

如何有条件地关闭 2 个 Blazor 页面的预渲染

我有一个使用 .NET 8 的 Blazor InteractiveServer 应用程序。 Google 网络爬虫仅获取页面的静态 html,而不等待 Blazor 创建 SignalR 电路,因此无需等待...

回答 1 投票 0

如何将动态文本写入Google抓取工具将看到的<head>?

看起来Google爬虫获取了页面的静态页面(预先调用OnInitializedAsync)。这适用于 Blazor 交互式服务器应用程序。 我需要填充 和 <

回答 1 投票 0

需要抓取Python建议

我需要从商业网站获取产品ID。产品 ID 是 URL 末尾的数字系列。 例如:http://example.com/sp/123170/ 的产品 ID 为 123170。 一些要求:...

回答 3 投票 0

查找网站中所有可能的链接/使用 Python 进行屏幕网页抓取

这里有一个开放式问题。我需要浏览一个工作网站并搜索工作描述标签和技能要求(我已经完成了)。我基本上想知道,我如何抓取...

回答 1 投票 0

当你做一个 AJAX 驱动的网站时,最好的 SEO 实践是什么?

我遇到了几个使用Ajax运行的网站,看起来他们的SEO很糟糕,Google真的会抓取这样的网站吗?

回答 2 投票 0

Python + BeautifulSoup:如何从 href 属性获取完整链接?

我正在组装一个网络爬虫用于练习和学习,并发现了一些问题。我最初的思考过程是... 在给定页面上,查找所有 href 属性。如果 href 值是有效的链接...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.