NLP 如何获取短语/文档的向量

问题描述 投票:0回答:1

我想知道如何使用 NLP 生成向量,如果我没记错的话,应该通过所有单词的总和或平均值来完成。但是,我不清楚以下句子如何使用 FastText 生成不同的向量:

phrase 1 : "Hello user, it's computer"
phrase 2 : "Hello computer, it's user"

因为所有的词都是一样的,我想知道 NLP 模型(尤其是 FastText,因为我用它生成了我的模型)如何为这些短语生成不同的向量。我也找不到关于该主题的任何信息。

nlp word2vec fasttext
1个回答
0
投票

使用所有单词向量的平均值是一种可以使用的非常简单的方法。

但是,正如您所注意到的,由于它不理解语法或词序,因此这是一种非常薄弱的方法,会遗漏多种含义。

不过,作为一个快速简单的基线,它可能还不错,特别是对于一些简单的主题分类任务,这些任务通常对较长短语的含义阴影不太敏感。

其他深度/循环文本模型可以从对按顺序排列的单词的组成效果敏感的文本中创建摘要向量。 BERT 是这种风格的一个有据可查的模型,您可以阅读它以了解更多信息,或者将其用作寻找其他替代方案的起点。

© www.soinside.com 2019 - 2024. All rights reserved.