摘要
AdamW一直是Transformer预训练的默认优化器。多年来,我们的社区一直在寻找更快、更稳定的优化器,且只关注积极的结果。在这项工作中,我们提出了一种**对Pytorch中任何基于动量的优化器的单行修改**,我们将其重命名为谨慎优化器,例如C-AdamW和C-Lion。我们的理论结果表明,这种修改保留了Adam的哈密顿函数,并且在李雅普诺夫分析下不会破坏收敛保证。此外,我们的理论洞察力揭示了一个全新的优化器家族。其中,我们选择了最简单的一个进行实证实验,结果表明Llama和MAE预训练的速度提高了高达1.47倍。代码可在https://github.com/kyleliang919/C-Optim获取。