摘要
arXiv:2504.16275v1 类型:交叉
摘要:Transformer的核心在于Softmax将注意力矩阵规范化为正似然矩阵。以往的研究已经表明,这常常导致训练不稳定,而通过对注意力矩阵施加Sinkhorn算法使其成为双似然矩阵(即双重随机矩阵)可以在不同任务、领域和Transformer变种中一致提高性能。然而,Sinkhorn算法是迭代的、近似的、非参数的,因此在获得双重随机矩阵(DSM)方面缺乏灵活性。最近的研究证明,DSM可以通过参数化的量子电路获得,这为DSM提供了一种新型的量子归纳偏差,且不存在已知的经典类比。受此启发,我们展示了将Softmax在自注意力层中的经典-量子混合双重随机矩阵Transformers(QDSFormer)的可行性,用可变量子电路替代Softmax。我们研究了电路的表达能力,并发现它能生成多样性更高的DSM,且能更好地保留信息,超越了经典算子。在多个小型对象识别任务中,我们发现我们的QDSFormer能够在所有任务中持续超越标准视觉Transformer和其他双重随机矩阵Transformers。除了已知的Sinkformer外,这项比较还包括一种基于QR分解的新型量子启发的双重随机矩阵Transformer,它具有独立的研究兴趣。QDSFormer还显示出改进的训练稳定性和较低的性能波动,暗示它可能缓解小型数据集上的ViTs训练不稳定性问题。