我想建立一个模型:
例如,我会给出一篇与财务会计相关的文章和一个短语“资产账户”。 然后,我希望它返回包含例如文章中提到的银行现金、库存、应收账款。
我认为这与文档中的标记和预定义主题的标记之间的相似性测量有关。 但我不确定传统的词嵌入模型是否足够,或者我需要使用更先进的东西,比如 BERT。或者也许完全是别的东西。
请您指教一下吗?
提前谢谢您。
PS。我已经回顾了可用于提取关键字的基本方法。但在尝试了可用的在线工具后,它们的效果不太好。
对于简单方法:
使用 BERT 嵌入来捕获语义相似性。
获取预定义主题短语(“资产帐户”)和文档中所有 2-gram 的嵌入。
测量预定义主题短语与每个 2-gram 之间的余弦相似度。