AdamW 优化器中的缩放学习率

我正在浏览一个示例 Keras 代码，在那里我遇到了这个传递给 AdamW 优化器的缩放学习率分配。

lr_scaled = (BASE_LR / 512) * BATCH_SIZE

BASE_LR 是初始学习率。

这样设置学习率是什么意思？

谁能提供一些介绍这个的资源？

编辑：这不是 Adam 它的 AdamW 优化器。