web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如果我有登录凭据,如何像已登录一样抓取页面数据?

我需要从不属于我的域的页面中抓取一些数据。我知道如何加载页面服务器端并用各种不同的语言(asp.net、PHP 等)解析它,但是,我需要

回答 2 投票 0

无法将curl转换为python cdoe

我正在尝试从网站获取数据。 我可以运行下面的脚本,使用curl成功并获取响应数据 卷曲'https://gappapi.deliverynow.vn/api/dish/get_delivery_dishes?id_type=2&request_id=112...

回答 1 投票 0

获取代理ip地址使用scrapy进行爬取

我使用 Tor 来抓取网页。 我启动了 Tor 和 Polipo 服务并添加了 class ProxyMiddleware(object): # 覆盖进程请求 def process_request(自身,请求,蜘蛛): # 设置

回答 3 投票 0

.net 8.0 中的 Angular 网站的网络爬行

我想抓取角度网站 - https://v16.angular.io/docs 我已经为此编写了代码 var playwright =等待 Playwright.CreateAsync(); var browser =等待 playwright.Chromium.LaunchAsync(new

回答 0 投票 0

将蜘蛛的名字添加到日志的每一行

我正在寻找一种方法,为 Scrapy 生成的每个日志添加生成它的蜘蛛的名称作为前缀。到目前为止,我在循环中同步启动每个蜘蛛,因此很容易跟踪...

回答 3 投票 0

使用 BeautifulSoup 单击 div 标签后抓取 html 页面

我在从网站上抓取问题和答案时遇到了一些麻烦: https://tech12h.com/bai-hoc/trac-nghiem-lich-su-12-bai-1-su-hinh-thanh-trat-tu-gioi-moi-sau-chien-tranh-gioi-thu-哈伊 该...

回答 1 投票 0

导入错误:无法从部分初始化的模块“firecrawl”导入名称“FirecrawlApp”(很可能是由于循环导入)

我正在尝试使用 Firecrawl 抓取网页,但遇到循环导入错误。这是我的代码: 从 firecrawl 导入 FirecrawlApp 从 openai 导入 OpenAI 从 dotenv 导入 load_d...

回答 1 投票 0

创建 Cookie 爬虫工具,使用 Node.js 或 Ruby 提取 Cookie 信息

我正在寻求开发一个简单的爬虫工具,可以使用 Node.js 或 Ruby 从网页中提取 cookie 信息。虽然我想分享一些代码,但我不确定最好的

回答 1 投票 0

Python 脚本抓取 ADO 项目以获取特定文件并下载它

我正在尝试创建一个 python 脚本,该脚本将抓取 Azure DevOps 项目以获取文件,并将其下载到本地。但是,我遇到了一个问题,即无法发出下载文件的请求

回答 1 投票 0

pyinstaller ModuleNotFoundError:'fake_useragent.data'

最重要的是,感谢您的光临。 我正在做网页抓取并将其制作成 .exe 文件 代码运行良好,但不在 .exe 文件中 我想要的:工作 exe 文件,避免机器人检测 我在做什么: 我很...

回答 1 投票 0

如何抓取我的网站以检测 404/500 错误?

是否有任何快速(可能是多线程)的方法来抓取我的网站(单击所有本地链接)以查找 404/500 错误(即确保 200 响应)? 我还希望能够将其设置为仅单击...

回答 4 投票 0

如何在 IIS 或 web.config 中将 X-Robots-Tag HTTP 标头设置为“index; follow”?

我得到'X-Robots-Tag:noindex; nofollow' 在我的响应标头中。我希望将其设置为“index;”关注'。

回答 2 投票 0

从应用程序的某些部分阻止 Play 商店爬虫

我们正在开发一个供第三方应用程序使用的 Unity 插件。在我们自己的测试中,我们发现 Google Play 商店的自动抓取工具(显然称为 Robo)会激活该插件并点击

回答 1 投票 0

爬虫在windows下返回数据是CR LF,但在linux下不行

我正在尝试使用 symfony 爬虫链接从网站上的标签获取数据。 foreach ($tables as $table) { $response = $this->client->get($url, [ 'http_errors' =>

回答 1 投票 0

Symfony 爬虫在 Windows 中返回带有 CR LF 的数据,但在 Linux 中则不然

我正在尝试使用 symfony 爬虫链接从网站上的标签获取数据。 foreach ($tables as $table) { $response = $this->client->get($url, [ 'http_errors' =>

回答 1 投票 0

数据框Python蜘蛛

我是Python的初学者。 我尝试在 Pandas 上加载 Excel 文件并处理它。 我使用大型 Excel 文件。例如,现在我正在处理一个包含 50 列的文件。我想在蜘蛛上看到它......

回答 1 投票 0

如何一次性提取多个站点中具有相同模式的URL?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

如何使用 R 或 Python 一次性提取多个站点中具有相同模式的 url?

我正在尝试从网站下载视频,这需要提取每个“视频网址”上的 1 个“下载网址”。 例子: “视频网址”:https://www.example.com/...

回答 1 投票 0

如何抓取 Google 搜索结果(大规模)?

据我所知,谷歌不喜欢被抓取/抓取。一个月前,当我准备开始这个项目时,在 stackoverflow 上发现了一个类似的问题(现在找不到了。)。有人说你...

回答 4 投票 0

使用 python 抓取/抓取具有多个选项卡的网站

我正在寻求帮助,以使用 Python 和 Selenium 从具有多个选项卡的网站中提取数据并将其保存为 .csv 格式。有问题的网站是:https://www.amfiindia.com/research-

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.