web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

使用 BeautifulSoup 单击 div 标签后抓取 html 页面

我在从网站上抓取问题和答案时遇到了一些麻烦: https://tech12h.com/bai-hoc/trac-nghiem-lich-su-12-bai-1-su-hinh-thanh-trat-tu-gioi-moi-sau-chien-tranh-gioi-thu-哈伊 该...

回答 1 投票 0

导入错误:无法从部分初始化的模块“firecrawl”导入名称“FirecrawlApp”(很可能是由于循环导入)

我正在尝试使用 Firecrawl 抓取网页,但遇到循环导入错误。这是我的代码: 从 firecrawl 导入 FirecrawlApp 从 openai 导入 OpenAI 从 dotenv 导入 load_d...

回答 1 投票 0

创建 Cookie 爬虫工具,使用 Node.js 或 Ruby 提取 Cookie 信息

我正在寻求开发一个简单的爬虫工具,可以使用 Node.js 或 Ruby 从网页中提取 cookie 信息。虽然我想分享一些代码,但我不确定最好的

回答 1 投票 0

Python 脚本抓取 ADO 项目以获取特定文件并下载它

我正在尝试创建一个 python 脚本,该脚本将抓取 Azure DevOps 项目以获取文件,并将其下载到本地。但是,我遇到了一个问题,即无法发出下载文件的请求

回答 1 投票 0

pyinstaller ModuleNotFoundError:'fake_useragent.data'

最重要的是,感谢您的光临。 我正在做网页抓取并将其制作成 .exe 文件 代码运行良好,但不在 .exe 文件中 我想要的:工作 exe 文件,避免机器人检测 我在做什么: 我很...

回答 1 投票 0

如何抓取我的网站以检测 404/500 错误?

是否有任何快速(可能是多线程)的方法来抓取我的网站(单击所有本地链接)以查找 404/500 错误(即确保 200 响应)? 我还希望能够将其设置为仅单击...

回答 4 投票 0

如何在 IIS 或 web.config 中将 X-Robots-Tag HTTP 标头设置为“index; follow”?

我得到'X-Robots-Tag:noindex; nofollow' 在我的响应标头中。我希望将其设置为“index;”关注'。

回答 2 投票 0

从应用程序的某些部分阻止 Play 商店爬虫

我们正在开发一个供第三方应用程序使用的 Unity 插件。在我们自己的测试中,我们发现 Google Play 商店的自动抓取工具(显然称为 Robo)会激活该插件并点击

回答 1 投票 0

爬虫在windows下返回数据是CR LF,但在linux下不行

我正在尝试使用 symfony 爬虫链接从网站上的标签获取数据。 foreach ($tables as $table) { $response = $this->client->get($url, [ 'http_errors' =>

回答 1 投票 0

Symfony 爬虫在 Windows 中返回带有 CR LF 的数据,但在 Linux 中则不然

我正在尝试使用 symfony 爬虫链接从网站上的标签获取数据。 foreach ($tables as $table) { $response = $this->client->get($url, [ 'http_errors' =>

回答 1 投票 0

数据框Python蜘蛛

我是Python的初学者。 我尝试在 Pandas 上加载 Excel 文件并处理它。 我使用大型 Excel 文件。例如,现在我正在处理一个包含 50 列的文件。我想在蜘蛛上看到它......

回答 1 投票 0

如何一次性提取多个站点中具有相同模式的URL?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

如何使用 R 或 Python 一次性提取多个站点中具有相同模式的 url?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

如何抓取 Google 搜索结果(大规模)?

据我所知,谷歌不喜欢被抓取/抓取。一个月前,当我准备开始这个项目时,在 stackoverflow 上发现了一个类似的问题(现在找不到了。)。有人说你...

回答 4 投票 0

使用 python 抓取/抓取具有多个选项卡的网站

我正在寻求帮助,以使用 Python 和 Selenium 从具有多个选项卡的网站中提取数据并将其保存为 .csv 格式。有问题的网站是:https://www.amfiindia.com/research-

回答 1 投票 0

查询 athena aws 的正确方法

我用 athena 查询 https://commoncrawl.org/overview 数据时超时...如果成功,每次查询将花费我 1000 美元...每 TB 5 美元,200 TB(?) ……其实太多了 这是……

回答 1 投票 0

如何通过在网站中键入 ctrl+C 来读取或保存剪贴板中的图像列表?(python)

发送请求也被网站禁止,所以我改变了一种方式来抓取网站中的图像。 我用ctrl+c复制内容,然后用ctrl+v到office word软件,图片是

回答 1 投票 0

搜索引擎的典型抓取深度

当搜索引擎(google、bing 等)抓取网站时,搜索引擎抓取网站的典型最大深度是多少。我所说的深度是指从主页开始的跳转次数。

回答 2 投票 0

如果我用 Ajax 完成页面上的所有操作,我该如何进行搜索引擎优化?

爬虫和ajax应用之间的关系如何? 网络爬虫或浏览器是否读取动态创建的元标记? 我想: 向页面添加锚点 创建永久链接...

回答 2 投票 0

在 Docker 中设置 Selenium Wire/Grid 使用代理时出错

我正在尝试将我的小爬虫设置为 Docker 项目。我正在使用 Selenium Wire,因此我可以一次运行多个请求。但是,现在我想设置代理,但遇到了几个问题...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.