LLM2D

摘要

arXiv:2502.02132v1 宣布类型: cross 摘要: 在现代深度学习中使用的优化方法中，每次更新都依赖于之前的迭代历史，通常称为内存，这种依赖性随着时间的推移迅速衰减。例如，具有动量的梯度下降具有指数衰减的内存，因为通过指数平均过去的梯度来实现。我们介绍了一种通用技术，用于识别一个无记忆算法，它近似于具有内存的优化算法。这对于通过将更新中的所有过去迭代替换为当前迭代，然后添加一个来自内存的修正项（这也是当前迭代的函数）来获得。这种修正项可以解释为对损失的扰动，这种扰动的性质可以告知内存如何隐式地（反）正则化优化动力学。作为我们理论的应用，我们发现Lion并不像AdamW那样具有由内存引起的隐式反正则化，从而为Lion最近记录的更好泛化性能提供了一个基于理论的解释。