LLM2D

摘要

arXiv:2405.00252v2 宣布类型: 替换-交叉摘要：深度学习中的优化技术主要依赖于一阶梯度方法，如SGD。然而，神经网络训练可以从第二阶优化的快速收敛特性中大大受益。Newton-GD 在这一类别中脱颖而出，它通过使用逆海森矩阵重新缩放梯度。然而，其主要瓶颈之一是矩阵求逆，这在弱可扩展性的情况下以 $O(N^3)$ 时间进行，尤其是矩阵求逆非常耗时。矩阵求逆可以转化为求解一系列线性方程。鉴于利用量子叠加和纠缠原理的量子线性求解器算法（QLSAs）可以在 $\text{polylog}(N)$ 时间内运行，它们展示了通过指数加速来进行有希望的方法。特别是，最近的一种 QLSA 展现了 $O(d \cdot \kappa \log(N \cdot \kappa / \epsilon))$ 的复杂度扩展，这取决于矩阵的：大小 $N$、条件数 $\kappa$、误差容限 $\epsilon$ 和量子算子稀疏性 $d$。然而，这也意味着它们的潜在的指数优势可能会受到某些属性（即 $\kappa$ 和 $d$）的限制。我们提出了 Q-Newton，这是一种混合量子-经典的调度器，用于通过 Newton-GD 加速神经网络训练。Q-Newton 采用了精简的调度模块，该模块协调量子和经典的线性求解器，通过估计并减少 $\kappa$ 和构建 $d$ 以适应量子求解器。我们的评估展示了 Q-Newton 与常用的优化器（如 SGD）相比，有潜力显著减少总训练时间。我们假设未来可能通过阿季松物理学降低量子机器的门时间，从而确立了量子计算发展的一个雄心勃勃且充满希望的目标。