LLM2D
Schedule-Free优化器、AdEMAMix与加速SGD变种之间的联系
Connections between Schedule-Free Optimizers, AdEMAMix, and Accelerated SGD Variants
作者: Depen Morwani, Nikhil Vyas, Hanlin Zhang, Sham Kakade
发布日期: 2/5/2025
arXiv ID: 2502.02431

摘要

arXiv:2502.02431v1 宣布类型: 横跨领域 摘要: 深度学习优化领域的近期进展引入了新的算法,如无计划优化器、AdEMAMix、MARS 和 Lion,这些算法修改了传统的动量机制。在同一研究领域中,通过将动量系数与当前梯度的权重分离,已经在噪声主导的环境下实现了随机梯度下降(SGD)的理论加速。在本文中,我们建立了这两条研究路径之间的明确联系。我们通过在一个包含150兆语言建模任务的初步实验中验证了我们的理论发现。我们发现,AdEMAMix,最接近加速版本的随机梯度下降,表现出更优越的性能。基于这些见解,我们提出了一种对AdEMAMix的改进,称为Simplified-AdEMAMix,它在大批次和小批次设置中保持与AdEMAMix相同的性能,同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix的代码可以在下面的仓库中获得:https://github.com/DepenM/Simplified-AdEMAMix/。