LLM2D
关于RMSProp及其动量扩展在$\ell_1$范数下$O\left(\frac{\sqrt{d}}{T^{1/4}}\right)$的收敛率
On the $O(\frac{\sqrt{d}}{T^{1/4}})$ Convergence Rate of RMSProp and Its Momentum Extension Measured by $\ell_1$ Norm
作者: Huan Li, Yiming Dong, Zhouchen Lin
发布日期: 4/29/2025
arXiv ID: oai:arXiv.org:2402.00389v5

摘要

arXiv:2402.00389v5 通知类型: replace-cross 摘要:尽管自适应梯度方法在深度学习中得到了广泛的应用,但文献中证明的这些方法的收敛速率都比随机梯度下降(SGD)慢,尤其是在维数依赖性方面。本文考虑了经典的RMSProp及其动量扩展,并在不假设梯度有界的情况下,通过1范数建立了收敛速率$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$,其中$d$是优化变量的维数,$T$是迭代次数,$C$是与SGD最优收敛速率中出现的常数相同的一个常数。我们的收敛速率在所有系数(除了维数$d$)方面与下界相匹配。由于对于具有极大$d$值的问题,有$\|x\|_2 \ll \|x\|_1 \leq \sqrt{d}\|x\|_2$,因此我们的收敛速率可以被认为类似于理想情况下$\|\nabla f(x)\|_1 = \varTheta(\sqrt{d}\|\nabla f(x)\|_2)$时SGD的$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$的收敛速率。