我是Word2Vec的初学者,刚开始从网上学习Word2vec。我已经完成了 Quora 和 StackOverflow 中几乎所有的问题,但没有从前面的问题中得到任何答案。所以我的问题是-
提前致谢。
是的,这些像 word2vec 这样的词义“密集嵌入”模型可能在抄袭检测中很有用。 (它们也可能有助于混淆简单检测器的剽窃,因为它们可以协助对现有文本进行自动转换,从而在保持含义相似的同时更改单词。)
只有通过在特定系统中进行测试并进行定量评估,您才能确定它的工作情况,或者特定嵌入是否比 WordNet 之类的更好或更差。
在 word2vec、fastttext 和 GloVE 中,结果可能非常相似——它们都使用大致相同的信息(滑动上下文窗口中的词共现)来制作最大预测词向量——因此它们的行为非常相似训练数据。
任何差异都是细微的——非 GLoVe 选项可能更适用于非常大的词汇表; fasttext 在某些模式下本质上是 word2vec,但增加了新的选项,用于建模子词 ngram(然后可以帮助为未来的词汇外词创建比随机向量更好的向量)或优化向量以解决分类问题。
但是,如果训练过程针对您的任务进行了类似的元优化,那么可以使用大量训练数据进行训练的已知单词的向量在能力上将非常相似。