LLM2D
Strassen Attention:基于新Lower Bound方法解锁Transformer的组合能力
Strassen Attention: Unlocking Compositional Abilities in Transformers Based on a New Lower Bound Method
作者: Alexander Kozachinskiy, Felipe Urrutia, Hector Jimenez, Tomasz Steifer, Germ\'an Pizarro, Mat\'ias Fuentes, Francisco Meza, Cristian B. Calderon, Crist\'obal Rojas
发布日期: 2/7/2025
arXiv ID: oai:arXiv.org:2501.19215v2

摘要

arXiv:2501.19215v2 Announce Type: replace-cross 摘要:我们提出了一种新的方法来评估Transformer的理论极限,使我们能够证明一维软最大Transformer在无限精度情况下的一系列下限。我们为三种需要高级推理的任务建立了这些界限。第一个任务,Match3(Sanford et al., 2023),要求查看所有三元组的位置。第二个和第三个任务涉及基于组合性的推理:一个是函数的组合(Peng et al., 2024),另一个是二元关系的组合。我们正式证明了一维软最大Transformer无法解决这些任务中的任何一个。为了克服这些限制,我们引入了Strassen注意力机制,并证明了通过这种方法,一维Transformer原则上可以解决所有这些任务。我们还展示了这种机制具有亚立方时间复杂度,使其比以前提出的类似机制(如高阶注意力,Sanford et al., 2023)更具可扩展性。为了补充我们的理论发现,我们实验研究了Strassen注意力机制,并将其与标准(Vaswani et al., 2017)、高阶注意力(Sanford et al., 2023)以及三角注意力(Bergen et al., 2021)进行了比较。我们的结果有助于解开这些注意力机制的异同,突显了它们的优势和局限性。尤其是,Strassen注意力机制在所有任务中显著优于标准注意力机制。总体而言,理解理论限制可以指导研究朝着更具可扩展性的注意力机制发展,以提高Transformer的推理能力。