LLM2D

摘要

AdamW一直是Transformer预训练的默认优化器。多年来，我们的社区一直在寻找更快、更稳定的优化器，且只关注积极的结果。在这项工作中，我们提出了一种**对Pytorch中任何基于动量的优化器的单行修改**，我们将其重命名为谨慎优化器，例如C-AdamW和C-Lion。我们的理论结果表明，这种修改保留了Adam的哈密顿函数，并且在李雅普诺夫分析下不会破坏收敛保证。此外，我们的理论洞察力揭示了一个全新的优化器家族。其中，我们选择了最简单的一个进行实证实验，结果表明Llama和MAE预训练的速度提高了高达1.47倍。代码可在https://github.com/kyleliang919/C-Optim获取。