LLM2D

摘要

arXiv:2412.02153v2 适配类型: replace-cross 摘要: 自适应梯度优化方法（如 Adam）因其能够实现更快的收敛而在各种机器学习任务中训练深度神经网络方面非常普遍。然而，这些方法在泛化能力上往往不如随机梯度下降（SGD），特别是在训练 Transformer 模型时表现出不稳定性。在这项工作中，我们表明标准的第二阶矩估计初始化（$v_0 = 0$）是导致这些限制性因素的一个重要原因。我们引入了一种简单而有效的解决方案：使用非零值初始化第二阶矩估计，可以采用数据驱动或随机初始化策略。实验证明，我们的方法不仅稳定了收敛，而且还增强了自适应梯度优化器的最终性能。此外，通过采用所提出的初始化策略，Adam 达到了与许多最近提出的自适应梯度优化方法变体相当的性能。我们的代码可在 https://github.com/Walleclipse/Adam_Initialization 获取。