我有一组主题,每个主题都有一个关键字列表。 {Sports:['Ronaldo Messi Zidane','Football Baseball', 'Barcelona Real']...}
任务是对特定文档进行分类。分类也可以是多标签的。文档可以属于topic1,topic2等。我没有足够的数据,因此无法使用机器学习解决问题。因为我想检索高度精确的文档,所以我使用k-gram
index处理了此问题。
我将给定的一组主题关键字视为查询,并围绕它建立了一个k-gram
索引。因此,我将所有键作为字符二元组,并将值作为包含二元组的术语。这些术语是我要分类的文档中存在的术语。在遍历主题的每个关键字的发布列表之后,我得到了一组候选术语及其对应的jaccard相似度得分。
谢谢。