我想知道Word2Vec本身是一个判别模型还是生成模型?
CBOW和Skip-gram都旨在最大化与令牌及其上下文之间的条件概率相对应的似然函数。我只关注网络和培训过程,我认为它遵循一种歧视性的方法。
然而,嵌入这个词是一种副产品,它描述了训练语料库中令牌之间的关系。考虑使用分段语料库训练的Word2Vec模型,接受一个标记并输出其嵌入,我们经常说'它生成一个单词嵌入'。 Word2Vec模型是歧视性模型还是生成性模型?
我遇到了一些制定它的麻烦。
生成模型和判别模型之间的主要区别在于生成模型描述了其输入和输出的联合分布,而判别描述了输入的输出的条件分布。
因此,Word2Vec被区别地训练:在CBOW中,我们根据其上下文预测一个单词,skip-gram模型以相反的方式工作。
当你说它产生一个嵌入时,它是一种不同的“生成”意义,它并不意味着从联合分布中抽样,而是通常产生。
我的观点是,一旦嵌入被训练,将它称为判别(或生成)模型并没有多大意义,因为你只使用表示,而不是模型定义的概率分布。