摘要
arXiv:2501.19215v1 交叉类型:
摘要: 我们提出了一种新的方法来评估变压器的理论极限,使我们能够证明无限精度的一层softmax变压器的第一个下限。我们为三项需要高级推理的任务建立了这些界限。第一个任务Match3 (Sanford et al., 2023) 要求查看所有三元组的位置。第二个和第三个任务处理基于组合性推理:一个是函数的组合 (Peng et al., 2024),另一个是二元关系的组合。我们正式证明了一层softmax变压器无法解决任何这些任务。为了克服这些限制,我们引入了Strassen注意力,并证明通过这种方法,一层变压器原则上可以解决所有这些任务。我们还展示了它具有亚立方运算复杂度,使其比类似的先前提出机制(如高阶注意力,Sanford et al., 2023)更具可扩展性。为了补充我们的理论发现,我们实验研究了Strassen注意力,并将其与标准(Vaswani et al, 2017)、高阶注意力(Sanford et al., 2023)和三角注意力(Bergen et al. 2021)进行了比较。我们的结果有助于区分所有这些注意力机制,强调了它们的优点和局限性。特别是,Strassen注意力在所有任务上显著优于标准注意力。总体而言,理解理论限制可以指导研究向具有可扩展性的注意力机制发展,从而提高变压器的推理能力。