LLM2D

摘要

arXiv:2504.16275v1 类型：交叉摘要：Transformer的核心在于Softmax将注意力矩阵规范化为正似然矩阵。以往的研究已经表明，这常常导致训练不稳定，而通过对注意力矩阵施加Sinkhorn算法使其成为双似然矩阵（即双重随机矩阵）可以在不同任务、领域和Transformer变种中一致提高性能。然而，Sinkhorn算法是迭代的、近似的、非参数的，因此在获得双重随机矩阵（DSM）方面缺乏灵活性。最近的研究证明，DSM可以通过参数化的量子电路获得，这为DSM提供了一种新型的量子归纳偏差，且不存在已知的经典类比。受此启发，我们展示了将Softmax在自注意力层中的经典-量子混合双重随机矩阵Transformers（QDSFormer）的可行性，用可变量子电路替代Softmax。我们研究了电路的表达能力，并发现它能生成多样性更高的DSM，且能更好地保留信息，超越了经典算子。在多个小型对象识别任务中，我们发现我们的QDSFormer能够在所有任务中持续超越标准视觉Transformer和其他双重随机矩阵Transformers。除了已知的Sinkformer外，这项比较还包括一种基于QR分解的新型量子启发的双重随机矩阵Transformer，它具有独立的研究兴趣。QDSFormer还显示出改进的训练稳定性和较低的性能波动，暗示它可能缓解小型数据集上的ViTs训练不稳定性问题。