识别文档中与定义主题相关的单词/短语

问题描述 投票:0回答:1

我想建立一个模型:

  1. 需要 2 个输入: 一个。文档(例如 PDF) b.预定义主题的短语
  2. 返回与预定义主题相关的单词或短语(2-gram)列表。

例如,我会给出一篇与财务会计相关的文章和一个短语“资产账户”。 然后,我希望它返回包含例如文章中提到的银行现金、库存、应收账款。

我认为这与文档中的标记和预定义主题的标记之间的相似性测量有关。 但我不确定传统的词嵌入模型是否足够,或者我需要使用更先进的东西,比如 BERT。或者也许完全是别的东西。

请您指教一下吗?

提前谢谢您。

PS。我已经回顾了可用于提取关键字的基本方法。但在尝试了可用的在线工具后,它们的效果不太好。

bert-language-model word-embedding keyword-search
1个回答
0
投票

对于简单方法:

  1. 文档预处理:
  • 使用 OCR 将文档转换为文本(如果是 PDF)并进行清理(删除停用词、标点符号等)。
  • 将文本标记为 2-gram(单词对)。
  1. 短语相似度测量:
  • 使用 BERT 嵌入来捕获语义相似性。

  • 获取预定义主题短语(“资产帐户”)和文档中所有 2-gram 的嵌入。

  • 测量预定义主题短语与每个 2-gram 之间的余弦相似度。

  1. 返回结果:
  • 按相似度对 2 克进行排序,并返回最相关的(例如,银行现金、库存等)。
© www.soinside.com 2019 - 2024. All rights reserved.