在我试图实施的paper中,它说,
在这项工作中,推文使用三种类型的文本表示建模。第一个是由tf-idf(术语频率 - 逆文档频率)加权的词袋模型(第2.1.1节)。第二个代表一个句子,通过平均所有单词的嵌入(在句子中),第三个代表一个句子,通过平均所有单词的加权单词嵌入,单词的权重由tf-idf给出(第2.1.2节) )。
我不确定所提到的第三种表示形式,因为使用单词权重的加权单词嵌入由tf-idf给出。我甚至不确定它们是否可以一起使用。
字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,该句子表示可能不是最好的。直觉如下:
另见this paper by Kenter et al。有一个nice post在不同的算法中执行这两种方法的比较,并得出结论,没有一种比另一种更好:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好。