LLM2D
鹰:早期近似梯度基于的学习率估计器
eagle: early approximated gradient based learning rate estimator
作者: Takumi Fujimoto, Hiroaki Nishi
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.01036v1

摘要

arXiv:2502.01036v1 优化类型: 横向 摘要: 我们提出了一种新颖的优化方法EAGLE更新规则,在训练早期阶段通过利用当前步骤和之前步骤的参数和梯度值来加速损失收敛。更新算法通过计算连续训练步骤中的参数和梯度变化,并利用这些变化得出的损失景观局部曲率来估计最优参数。然而,该更新规则可能存在不稳定性,为此,我们引入了一种自适应切换机制,该机制可以在Adam和EAGLE更新规则之间动态选择,以增强训练稳定性。在标准基准数据集上的实验表明,结合这种新颖的更新规则和切换机制的EAGLE优化器在较少的epochs数内实现了快速的训练损失收敛,优于传统的优化方法。