加权单词嵌入是什么意思?

问题描述 投票:7回答:2

在我试图实施的paper中,它说,

在这项工作中,推文使用三种类型的文本表示建模。第一个是由tf-idf(术语频率 - 逆文档频率)加权的词袋模型(第2.1.1节)。第二个代表一个句子,通过平均所有单词的嵌入(在句子中),第三个代表一个句子,通过平均所有单词的加权单词嵌入,单词的权重由tf-idf给出(第2.1.2节) )。

我不确定所提到的第三种表示形式,因为使用单词权重的加权单词嵌入由tf-idf给出。我甚至不确定它们是否可以一起使用。

machine-learning nlp word2vec tf-idf word-embedding
2个回答
7
投票

字嵌入的平均(可能加权)是有意义的,尽管取决于主算法和训练数据,该句子表示可能不是最好的。直觉如下:

  • 你可能想要处理不同长度的句子,因此平均(优于普通和)。
  • 句子中的某些单词通常比其他单词更有价值。 TF-IDF是单词值的最简单衡量标准。请注意,结果的比例不会改变。

另见this paper by Kenter et al。有一个nice post在不同的算法中执行这两种方法的比较,并得出结论,没有一种比另一种更好:一些算法支持简单平均,一些算法在TF-IDF加权下表现更好。


5
投票

在这个article或这个one中,我们使用加权和,idf加权和词性加权以及使用两者的混合方法。混合方法是最好的,并帮助我们成为英语 - 西班牙语和阿拉伯语 - 阿拉伯语的SemEval 2017相似性任务的第一名(实际上我们因阿拉伯语而被正式排名第二,因为我们由于某些原因没有发送混合方法)。

它很容易实现和使用,你在文章中有公式,但简而言之,句子的向量只是V = sum_i ^ k = 1 Posweight(w_i)* IDFWeight(w_i)* V_i

© www.soinside.com 2019 - 2024. All rights reserved.