BERT 编码器块中令牌嵌入的标准化

问题描述 投票:0回答:1

在 BERT 编码器块中的多头注意力层之后,是对每个令牌的嵌入(即每个令牌嵌入一个均值和方差)或对所有令牌嵌入的串联向量(相同的均值)分别进行层归一化以及所有嵌入的方差)?

nlp normalization bert-language-model attention-model
1个回答
0
投票

层标准化分别应用于每个标记的嵌入。这意味着每个令牌根据其特定功能都有自己的规范化。这有助于确保模型可以有效地处理每个标记,而不管序列中的其他标记如何。

BERT 与原始 Transformer 架构的不同之处在于层归一化的放置。在 BERT 中,它应用在自注意力机制之前,而在原始 Transformer 中,它应用在自注意力机制之后。这种细微的差异可能会对模型的性能产生重大影响。 (参见此处

© www.soinside.com 2019 - 2024. All rights reserved.