LLM2D
Q-Newton: 结合量子-经典调度以加速基于牛顿梯度下降的神经网络训练
Q-Newton: Hybrid Quantum-Classical Scheduling for Accelerating Neural Network Training with Newton's Gradient Descent
作者: Pingzhi Li, Junyu Liu, Hanrui Wang, Tianlong Chen
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2405.00252v2

摘要

arXiv:2405.00252v2 宣布类型: 替换-交叉 摘要:深度学习中的优化技术主要依赖于一阶梯度方法,如SGD。然而,神经网络训练可以从第二阶优化的快速收敛特性中大大受益。Newton-GD 在这一类别中脱颖而出,它通过使用逆海森矩阵重新缩放梯度。然而,其主要瓶颈之一是矩阵求逆,这在弱可扩展性的情况下以 $O(N^3)$ 时间进行,尤其是矩阵求逆非常耗时。 矩阵求逆可以转化为求解一系列线性方程。鉴于利用量子叠加和纠缠原理的量子线性求解器算法(QLSAs)可以在 $\text{polylog}(N)$ 时间内运行,它们展示了通过指数加速来进行有希望的方法。特别是,最近的一种 QLSA 展现了 $O(d \cdot \kappa \log(N \cdot \kappa / \epsilon))$ 的复杂度扩展,这取决于矩阵的:大小 $N$、条件数 $\kappa$、误差容限 $\epsilon$ 和量子算子稀疏性 $d$。然而,这也意味着它们的潜在的指数优势可能会受到某些属性(即 $\kappa$ 和 $d$)的限制。 我们提出了 Q-Newton,这是一种混合量子-经典的调度器,用于通过 Newton-GD 加速神经网络训练。Q-Newton 采用了精简的调度模块,该模块协调量子和经典的线性求解器,通过估计并减少 $\kappa$ 和构建 $d$ 以适应量子求解器。 我们的评估展示了 Q-Newton 与常用的优化器(如 SGD)相比,有潜力显著减少总训练时间。我们假设未来可能通过阿季松物理学降低量子机器的门时间,从而确立了量子计算发展的一个雄心勃勃且充满希望的目标。