我正在浏览一个示例 Keras 代码,在那里我遇到了这个传递给 AdamW 优化器的缩放学习率分配。
lr_scaled = (BASE_LR / 512) * BATCH_SIZE
BASE_LR 是初始学习率。
这样设置学习率是什么意思?
谁能提供一些介绍这个的资源?
编辑:这不是 Adam 它的 AdamW 优化器。