我想知道编码器的隐藏状态对注意力网络有多大用处。当我研究注意力模型的结构时,我发现模型通常看起来像:
通过翻译之类的过程,为什么编码器的隐藏状态前馈或首先存在很重要?我们已经知道下一个x将是什么。因此,输入的顺序对于输出的顺序并不一定重要,因为注意力模型同时查看所有输入,所以从前一个输入记住的内容也没有。您难道不直接将注意力放在x的嵌入上吗?
谢谢!
您可以轻松地尝试看到您将获得非常糟糕的结果。即使您向输入嵌入中添加了一些位置编码,结果也将非常糟糕。
顺序很重要。句子:
实际上具有不同的含义。同样,定单并不是您从编码器获得的唯一信息。编码器也确实输入了歧义:单词可以是同义的,例如“ train”(请参见https://arxiv.org/pdf/1908.11771.pdf)。同样,对训练过的神经网络的探测表明,编码器开发出了输入句子的漂亮抽象表示(请参见https://arxiv.org/pdf/1911.00317.pdf),而翻译的很大一部分实际上已经在编码器中进行了(请参见https://arxiv.org/pdf/2003.09586.pdf)。