LLM2D
理解Adam为何优于SGD:Transformer中的梯度异方差性
Understanding Why Adam Outperforms SGD: Gradient Heterogeneity in Transformers
作者: Akiyoshi Tomihari, Issei Sato
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00213v1

摘要

arXiv:2502.00213v1 优化类型: 横跨领域 摘要:使用 SGD 优化 Transformer 模型具有挑战性,通常需要 Adam 这类自适应优化器。然而,Adam 相比于 SGD 优越性能的原因仍然不清楚。在本研究中,我们通过关注定义为参数梯度范数差异的梯度异质性,来研究 Transformer 模型的优化问题。我们的分析表明,梯度异质性阻碍了基于梯度的优化,包括 SGD,而基于符号的优化,这是一种 Adam 的简化变体,受此影响较小。我们进一步检查了 Transformer 模型中的梯度异质性,并表明它受到层归一化放置的影响。此外,我们展示了在包含大量类别的任务中,基于符号的优化中的动量项对于防止线性头参数的过度增长非常重要。从 NLP 和视觉领域的微调 Transformer 模型的实验结果验证了我们的理论分析。本研究为 Transformer 模型的优化挑战提供了见解,并为设计未来的优化算法提供了指导。代码可在 https://github.com/tom4649/gradient-heterogeneity 获取。