没有偷看或注意力的简单深seq2seq会收敛吗？

问题描述投票：0回答：1

是否有成功应用深度seq2seq模型，其中解码器在第一步只读取编码器的输出状态（编码器内部状态的最后一步），并执行多步解码？

即没有偷看，没有注意等。在每一步，解码器的输入只是前一步的输出和状态。

我可以看到一些seq2seq自动编码器实现，想知道它们是否经过长时间的训练后真正收敛，特别是当内部状态很小时。

deep-learning autoencoder

1个回答

0
投票

仅使用最后隐藏状态而没有注意力没有足够的表示能力，尤其是当隐藏的大小很小时。在发明之前的一些系统受到关注

https://arxiv.org/abs/1409.3215

https://arxiv.org/abs/1506.05869

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.