LLM2D

摘要

arXiv:2402.00389v5 通知类型: replace-cross 摘要：尽管自适应梯度方法在深度学习中得到了广泛的应用，但文献中证明的这些方法的收敛速率都比随机梯度下降（SGD）慢，尤其是在维数依赖性方面。本文考虑了经典的RMSProp及其动量扩展，并在不假设梯度有界的情况下，通过1范数建立了收敛速率$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_1\right]\leq O(\frac{\sqrt{d}C}{T^{1/4}})$，其中$d$是优化变量的维数，$T$是迭代次数，$C$是与SGD最优收敛速率中出现的常数相同的一个常数。我们的收敛速率在所有系数（除了维数$d$）方面与下界相匹配。由于对于具有极大$d$值的问题，有$\|x\|_2 \ll \|x\|_1 \leq \sqrt{d}\|x\|_2$，因此我们的收敛速率可以被认为类似于理想情况下$\|\nabla f(x)\|_1 = \varTheta(\sqrt{d}\|\nabla f(x)\|_2)$时SGD的$\frac{1}{T}\sum_{k=1}^T E\left[\|\nabla f(x^k)\|_2\right]\leq O(\frac{C}{T^{1/4}})$的收敛速率。