LLM2D

摘要

arXiv:2502.02431v1 宣布类型: 横跨领域摘要: 深度学习优化领域的近期进展引入了新的算法，如无计划优化器、AdEMAMix、MARS 和 Lion，这些算法修改了传统的动量机制。在同一研究领域中，通过将动量系数与当前梯度的权重分离，已经在噪声主导的环境下实现了随机梯度下降（SGD）的理论加速。在本文中，我们建立了这两条研究路径之间的明确联系。我们通过在一个包含150兆语言建模任务的初步实验中验证了我们的理论发现。我们发现，AdEMAMix，最接近加速版本的随机梯度下降，表现出更优越的性能。基于这些见解，我们提出了一种对AdEMAMix的改进，称为Simplified-AdEMAMix，它在大批次和小批次设置中保持与AdEMAMix相同的性能，同时消除了需要两个不同动量项的需求。Simplified-AdEMAMix的代码可以在下面的仓库中获得：https://github.com/DepenM/Simplified-AdEMAMix/。