LLM2D
Schedule-Free优化器、AdEMAMix及其加速SGD变种之间的联系
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
作者: Depen Morwani, Nikhil Vyas, Hanlin Zhang, Sham Kakade
发布日期: 2/5/2025
arXiv ID: oai:arXiv.org:2502.02431v1

摘要

arXiv:2502.02431v1 类型: cross 摘要: 深度学习优化领域的 Recent 进展引入了新的算法,如 Schedule-Free 优化器、AdEMAMix、MARS 和 Lion,这些算法修改了传统的动量机制。另一条工作的线则是通过将动量系数与当前梯度的权重解耦,在噪声主导的环境下的随机梯度下降(SGD)实现了理论上的加速。在本文中,我们建立了这两条工作线之间的明确联系。我们通过在150M语言建模任务上的初步实验验证了我们的理论发现。我们发现,AdEMAMix,最为接近加速版本的随机梯度下降算法,表现出更优的性能。基于这些见解,我们引入了 AdEMAMix 的一个修改版本,称为 Simplified-AdEMAMix,在大批次和小批次设置下都保持与 AdEMAMix 相同的性能,同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix 的代码可在仓库 https://github.com/DepenM/Simplified-AdEMAMix/ 上获取。