摘要
arXiv:2502.02132v1 宣告类型:交叉
摘要:在现代用于深度学习的优化方法中,每次更新都依赖于过去迭代的历史,通常称为记忆,这种依赖性随着时间的推移迅速衰减。例如,具有动量的梯度下降通过指数加权平均过去的梯度具有指数衰减的记忆。我们介绍了一种通用技术,用于识别一个无记忆算法,该算法可以近似具有记忆的优化算法。这可以通过用当前迭代替换所有过去的迭代来获得,并且然后添加一个源自记忆的修正项(也依赖于当前迭代)。这个修正项可以解释为损失的扰动,这种扰动的性质可以说明记忆如何隐式(或反)正则化优化动力学。作为我们理论的应用,我们发现Lion并不像AdamW那样具有由记忆诱导的反正则化,这为最近记录的Lion更好的泛化性能提供了一个基于理论的解释。