如果在训练期间未更新权重,则损失函数如何在预训练的word2vec嵌入的情况下起作用。那么后向传递如何工作以及它如何更新以进行预测?
损失是概率输出和实际类别的计算,该计算不依赖于任何后续层的训练状态。按状态我的意思是trainable == True或trainable == False。
仅当状态是可训练的==真时,损失的反向传播与学习速率结合使用以调整层的权重。如果在不可训练的层之间存在可训练的层,则错误仍然可以通过这些层。模型中任何“可训练”的图层将在每个训练步骤后更新。
使用Word2Vec时,权重会导入嵌入层,并且会多次“冻结”,以便在训练其余参数时不进行更新。然而,在这个过程即将结束时,有时解冻这些重量可以获得更好的结果。