LLM2D
QAMA:量子退火多头注意力算子与经典深度学习框架
QAMA: Quantum annealing multi-head attention operator with classical deep learning framework
作者: Peng Du, Shuolei Wang, Shicheng Li, Jinjing Shi
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.11083v1

摘要

arXiv:2504.11083v1 通知类型: 横跨 摘要:随着大规模语言模型的扩展,传统的注意力机制面临着内存消耗和能源成本指数级增长的严峻挑战。量子退火计算,由于其在计算效率和低能耗方面的固有优势,为构建新颖的深度学习架构提供了创新方向。本研究提出了首个基于量子退火机制的多头注意力(QAMA)机制,通过二次非线性二元优化(QUBO)建模前向传播和基于能量的反向传播,实现了与经典注意力架构的无缝兼容。该方法创新性地利用了伊辛模型中量子比特的相互作用特性,将传统的 $O(n^2)$ 空间时间复杂度优化为线性资源消耗。结合相干伊辛机器(CIM)的光学计算优势,系统保持了毫秒级的实时响应能力,同时显著降低了能耗。我们的重要贡献包括:理论证明建立 QAMA 数学等价于经典注意力机制;通过 QUBO 约束实现多头特异性与长程信息捕获的双重优化;利用伊辛能量方程的具体梯度证明,在计算图中将梯度传导作为唯一路径实现层间的梯度传导;提出了一种软选择机制,克服了传统二元注意力的局限性,近似连续权重。在 QBoson CPQC 量子计算机上的实验显示,QAMA 在减少推理时间至毫秒级的同时,提高了求解质量,与经典操作符的准确性相当。这项工作在架构级别率先将量子计算和深度学习整合起来,适用于任何基于注意力的模型,推动了人工智能基础计算范式的创新。