TF-IDF(词频 - 逆文档频率) 是信息检索的主要内容。但这不是一个合适的模型,当新术语引入语料库时,它似乎就会崩溃。当查询或新文档有新术语时,尤其是频率很高的情况下,人们如何处理。在传统的余弦匹配下,这些不会对总匹配产生影响。
呃,不,不会崩溃。
假设我有两个文件,A“黄鼠狼山羊”和B“奶酪地鼠”。如果我们实际上将它们表示为向量,它们可能看起来像这样:
A [1,1,0,0]
B [0,0,1,1]
如果我们已经在索引文件中分配了这些向量,是的,当需要添加新术语时我们就会遇到问题。但它的技巧是,那个向量永远不存在。关键是倒排索引。
就不影响余弦匹配的新术语而言,这可能是正确的,具体取决于您的意思。如果我使用查询“marmoset kungfu”搜索我的 (A,B) 语料库,则语料库中既不存在狨猴也不存在 kungfu。因此,代表我的查询的向量将与集合中的所有文档正交,并获得不好的余弦相似度得分。但考虑到没有一个条款匹配,这似乎很合理。
当您谈论“分解”时,我认为您的意思是新术语对相似性度量没有影响,因为它们在原始词汇定义的向量空间中没有任何表示。
处理此平滑问题的一种方法是考虑将词汇表固定为较小的词汇表,并将所有少于特定阈值的单词视为属于特殊的
_UNKNOWN_
单词。
但是,我认为你对“崩溃”的定义不是很清楚;你能澄清一下你的意思吗?如果您能澄清这一点,也许我们可以讨论解决这些问题的方法。