Azure搜索将文档添加到索引方法

问题描述 投票:0回答:1

我不确定我是否能够描述这个权利,但是请允许。

我们正在实施Azure搜索。在核心级别,我们有可搜索的PDF文档,我们希望将其文本添加到索引中,以便所有这些文档都可搜索。最初的想法是仅通过添加文档rest api将该文档提交到索引。当时的想法是,这将是最简单,最快的途径使该文档的文本进入索引。我们还考虑过使用和索引器,只是将所有Searchable PDF文档都放在Blob存储中,并使用索引器每10-15分钟抓取一次。

[我们还研究(基于建议)提交独立的JSON文件,其中包含PDF中的文本。通过相同的添加文档API或将其提交给索引将该文件放在Blob存储区中。在JSON文档中,我们需要具有文档标识符,该标识符为索引提供PDF的位置,以便在找到该文本时通过搜索,我们可以使其可单击,从而打开PDF。

在我看来,将带有文档的json文件添加到api中。将其编入索引,并将其作为搜索的一部分,我们可以使用文档ID链接回它并打开它。

对于使用Azure搜索的用户。您是如何实现的?

azure search
1个回答
0
投票

如果您完全确定只有pdf会保留在该特定索引上,则第一种方法的实现速度会更快,因为本机索引器可用于提取pdf文档的内容以及将其推入索引。

两种方法都可以,但是对于第二种方法,则需要使用外部工具自己提取pdf。

© www.soinside.com 2019 - 2024. All rights reserved.