摘要
arXiv:2502.02431v1 类型: cross
摘要: 深度学习优化领域的 Recent 进展引入了新的算法,如 Schedule-Free 优化器、AdEMAMix、MARS 和 Lion,这些算法修改了传统的动量机制。另一条工作的线则是通过将动量系数与当前梯度的权重解耦,在噪声主导的环境下的随机梯度下降(SGD)实现了理论上的加速。在本文中,我们建立了这两条工作线之间的明确联系。我们通过在150M语言建模任务上的初步实验验证了我们的理论发现。我们发现,AdEMAMix,最为接近加速版本的随机梯度下降算法,表现出更优的性能。基于这些见解,我们引入了 AdEMAMix 的一个修改版本,称为 Simplified-AdEMAMix,在大批次和小批次设置下都保持与 AdEMAMix 相同的性能,同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix 的代码可在仓库 https://github.com/DepenM/Simplified-AdEMAMix/ 上获取。