AdamW 优化器中的缩放学习率

问题描述 投票:0回答:0

我正在浏览一个示例 Keras 代码,在那里我遇到了这个传递给 AdamW 优化器的缩放学习率分配。

lr_scaled = (BASE_LR / 512) * BATCH_SIZE

BASE_LR 是初始学习率。

这样设置学习率是什么意思?

谁能提供一些介绍这个的资源?

编辑:这不是 Adam 它的 AdamW 优化器。

keras optimization deep-learning adam learning-rate
© www.soinside.com 2019 - 2024. All rights reserved.