摘要
arXiv:2411.16085v3 优化器类型: replace-cross
摘要: AdamW 已经成为变压器预训练的默认优化器。多年来,我们的社区一直在寻找更快更稳定的优化器,但结果一直受到限制。在这项工作中,我们提出了一种在 Pytorch 中对任何基于动量的优化器进行单行修改的方法,我们将其更名为谨慎优化器,例如 C-AdamW 和 C-Lion。我们的理论结果表明,这种修改保留了 Adam 的哈密尔顿函数,并且在李雅普诺夫分析下不会破坏收敛性保证。此外,我们的理论洞察揭示了一整类新的优化器。在这其中,我们选择了一个最简单的版本进行实验,结果显示不仅在 Llama 和 MAE 预训练上速度提高了 1.47 倍,而且在大语言模型后训练任务上也取得了更好的结果。相关代码可在 https://github.com/kyleliang919/C-Optim 获取。