没有偷看或注意力的简单深seq2seq会收敛吗?

问题描述 投票:0回答:1

是否有成功应用深度seq2seq模型,其中解码器在第一步只读取编码器的输出状态(编码器内部状态的最后一步),并执行多步解码?

即没有偷看,没有注意等。在每一步,解码器的输入只是前一步的输出和状态。

我可以看到一些seq2seq自动编码器实现,想知道它们是否经过长时间的训练后真正收敛,特别是当内部状态很小时。

deep-learning autoencoder
1个回答
0
投票

仅使用最后隐藏状态而没有注意力没有足够的表示能力,尤其是当隐藏的大小很小时。在发明之前的一些系统受到关注

https://arxiv.org/abs/1409.3215

https://arxiv.org/abs/1506.05869

© www.soinside.com 2019 - 2024. All rights reserved.