LLM2D
算术变换器可以在操作数长度和数量上进行长度泛化
Arithmetic Transformers Can Length-Generalize in Both Operand Length and Count
作者: Hanseul Cho, Jaeyoung Cha, Srinadh Bhojanapalli, Chulhee Yun
发布日期: 4/18/2025
arXiv ID: oai:arXiv.org:2410.15787v2

摘要

arXiv:2410.15787v2 发布类型: replace-cross 摘要:变换器经常在长度泛化方面遇到困难,这意味着它们无法泛化到训练期间遇到的序列长度更长的序列。虽然算术任务常被用来研究长度泛化,但某些任务被认为特别困难,例如多操作数加法(需要在操作数的数量和长度方面进行泛化)和乘法(需要在操作数长度方面进行泛化)。在本文中,我们在两个任务上实现了大约2-3倍的长度泛化,这是算术变换器中首次实现此类泛化。我们设计了任务特定的记事板,使模型能够在每个预测步骤中专注于固定数量的标记,并应用不同的 \Position Coupling(Cho 等,2024;McLeish 等,2024)多级版本,以让变换器知道需要关注的位置。从理论角度来看,我们证明了一种使用我们方法的单层变换器可以解决多操作数加法问题,其操作数长度和操作数数量可以是嵌入维度的指数值。