LLM2D

摘要

arXiv:2405.00252v3 宣告类型: replace-cross 摘要：深度学习中的优化技术主要依赖于一阶梯度方法，例如SGD。然而，神经网络训练可以从二阶优化的快速收敛特性中显著受益。Newton的GD方法在这一领域中脱颖而出，通过使用逆海森矩阵对梯度进行重新缩放。然而，它的主要瓶颈之一是矩阵求逆，这在弱可扩展性的情况下需要$O(N^3)$的时间。矩阵求逆可以转化为求解一系列线性方程。鉴于利用量子叠加和纠缠原则的量子线性求解器算法（QLSAs）可以在$\text{polylog}(N)$的时间框架内运行，它们以指数级加速显示出有希望的方法。具体来说，最近的一种最先进QLSA的复杂度缩放为$O(d\cdot\kappa \log(N\cdot\kappa/\epsilon))$，取决于矩阵的大小$N$、条件数$\kappa$、误差容限$\epsilon$以及量子预言机的稀疏性$d$。然而，这也意味着它们的潜在指数优势可能受到某些特性（即$\kappa$和$d$）的影响。我们提出了一种混合量子-经典调度器Q-Newton，用于加速使用Newton的GD方法的神经网络训练。Q-Newton利用了一个简化调度模块，该模块协调量子和经典线性求解器之间的工作，通过估计并减少$\kappa$和为量子求解器构建$d$。我们的评估表明，Q-Newton有潜力显著减少与SGD等常用优化器相比的总训练时间。我们设想了一个量子机器门时间减少的未来场景，这可能通过阿秒钟物理学实现。我们的评估为量子计算的发展设定了一个雄心勃勃且充满希望的目标。