我不确定我是否能够描述这个权利,但是请允许。
我们正在实施Azure搜索。在核心级别,我们有可搜索的PDF文档,我们希望将其文本添加到索引中,以便所有这些文档都可搜索。最初的想法是仅通过添加文档rest api将该文档提交到索引。当时的想法是,这将是最简单,最快的途径使该文档的文本进入索引。我们还考虑过使用和索引器,只是将所有Searchable PDF文档都放在Blob存储中,并使用索引器每10-15分钟抓取一次。
[我们还研究(基于建议)提交独立的JSON文件,其中包含PDF中的文本。通过相同的添加文档API或将其提交给索引将该文件放在Blob存储区中。在JSON文档中,我们需要具有文档标识符,该标识符为索引提供PDF的位置,以便在找到该文本时通过搜索,我们可以使其可单击,从而打开PDF。
在我看来,将带有文档的json文件添加到api中。将其编入索引,并将其作为搜索的一部分,我们可以使用文档ID链接回它并打开它。
对于使用Azure搜索的用户。您是如何实现的?
如果您完全确定只有pdf会保留在该特定索引上,则第一种方法的实现速度会更快,因为本机索引器可用于提取pdf文档的内容以及将其推入索引。
两种方法都可以,但是对于第二种方法,则需要使用外部工具自己提取pdf。