高频向 Azure AI 搜索发送数据的策略

问题描述 投票:0回答:1

我正在使用 Azure AI 搜索,需要有关有效处理数据提交的建议。我的系统有数百 GB 的数据,我每秒可以生成多个条目 - 可能有数十个,具体取决于流量。

这是我的挑战:

  • 每个单独的数据条目都很小(例如,用户创建、消息)。

  • 尚未决定是立即发送每个条目还是批量发送。

  • 担心同时向 Azure AI 搜索发送过多请求。这会导致问题吗?

主要问题:

  1. 我应该立即发送每个单独的数据条目,还是累积并每 10-20-30 秒发送一次?

  2. 如果我单独发送条目,什么频率被认为过于频繁并且可能导致限制或性能问题?

  3. 如果我对数据进行批处理,什么策略最适合临时存储?我应该使用数据库、Redis 还是其他?

  4. 优化数据提交间隔和确保高效索引的最佳实践是什么?

任何有关在 Azure 认知搜索中管理大量数据提交的见解或经验将不胜感激!

azure elasticsearch nosql azure-ai-search
1个回答
0
投票

每个单独的数据条目到达时都存储在 SQL 数据库或 Azure Blob 存储中。

在 blob 中可以是 Json 、 text 、 csv 等。这里是 支持的格式

接下来,按照本文档中提到的步骤对其进行索引,以将 blob 存储作为数据源。

当新数据到达 Blob 存储时,您只需定期运行索引器,例如每天或每小时。

它会自动将新文档添加到索引中。

enter image description here

如果您想重新索引整个文档,请重置运行索引器。

接下来,如果您想从索引中删除文档,请在数据源中启用删除跟踪。

enter image description here

从 Blob 存储中删除文档后重新运行索引器时,这将从索引中删除文档。

通过使用上述方法,您可以定期从 Blob 存储中索引数据。

© www.soinside.com 2019 - 2024. All rights reserved.