摘要
arXiv:2504.19426v1 交叉类型
摘要:基于梯度下降的优化方法是机器学习中训练深度神经网络的选择方法。除了标准的梯度下降方法外,还经常考虑包含加速技术(如动量方法)和自适应技术(如RMSprop方法)的标准梯度下降方法的适合修改变体作为优化方法。如今,这种复杂的优化方案中最为流行的可能是由Kingma和Ba在2014年提出的Adam优化器。一个非常相关的研究主题是研究这些优化方法的收敛速度。特别是,Polyak在1964年证明,标准的梯度下降方法以率(x - 1)(x + 1)^{-1}收敛到严格局部极小值的一个邻域,而动量以(最优的)更快的收敛速度(\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}收敛,其中x \in (1,\infty)是目标函数在局部极小值处海森矩阵的条件数(最大的和最小的特征值之比)。本文的关键贡献在于揭示,Adam以更快的收敛速度(\sqrt{x} - 1)(\sqrt{x} + 1)^{-1}收敛,而RMSprop仅以收敛速度(x - 1)(x + 1)^{-1}收敛。