摘要
arXiv:2402.00389v5 通知类型: replace-cross
摘要:尽管自适应梯度方法在深度学习中得到了广泛的应用,但文献中证明的这些方法的收敛速率都比随机梯度下降(SGD)慢,尤其是在维数依赖性方面。本文考虑了经典的RMSProp及其动量扩展,并在不假设梯度有界的情况下,通过1范数建立了收敛速率$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$,其中$d$是优化变量的维数,$T$是迭代次数,$C$是与SGD最优收敛速率中出现的常数相同的一个常数。我们的收敛速率在所有系数(除了维数$d$)方面与下界相匹配。由于对于具有极大$d$值的问题,有$\|x\|_2 \ll \|x\|_1 \leq \sqrt{d}\|x\|_2$,因此我们的收敛速率可以被认为类似于理想情况下$\|\nabla f(x)\|_1 = \varTheta(\sqrt{d}\|\nabla f(x)\|_2)$时SGD的$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$的收敛速率。