摘要
arXiv:2502.02132v1 宣布类型: cross
摘要: 在现代深度学习中使用的优化方法中,每次更新都依赖于之前的迭代历史,通常称为内存,这种依赖性随着时间的推移迅速衰减。例如,具有动量的梯度下降具有指数衰减的内存,因为通过指数平均过去的梯度来实现。我们介绍了一种通用技术,用于识别一个无记忆算法,它近似于具有内存的优化算法。这对于通过将更新中的所有过去迭代替换为当前迭代,然后添加一个来自内存的修正项(这也是当前迭代的函数)来获得。这种修正项可以解释为对损失的扰动,这种扰动的性质可以告知内存如何隐式地(反)正则化优化动力学。作为我们理论的应用,我们发现Lion并不像AdamW那样具有由内存引起的隐式反正则化,从而为Lion最近记录的更好泛化性能提供了一个基于理论的解释。