LLM2D
Transformer 的推理能力究竟有多强?全局性障碍与归纳式暂存器
How Far Can Transformers Reason? The Globality Barrier and Inductive Scratchpad
作者: Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Colin Sandon, Omid Saremi
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2406.06467v2

摘要

大型语言模型能否通过组合已知的推理来预测新的三段论?更一般地,这类模型从头开始可以学习什么样的目标?最近的研究表明,就表达能力而言,Transformer 可能是图灵完备的,但这并没有解决可学习性问题。本文提出了目标分布的“全局性程度”的概念,以捕捉常规 Transformer 何时能够有效地实现弱学习,其中后者衡量的是除了词元直方图之外,还需要多少词元才能与目标产生非平凡的相关性。正如在附加假设下通过实验和理论所证明的那样,具有高全局性的分布无法有效学习。特别是,三段论无法在长链上进行组合。此外,我们还表明:(i)不可知的备忘录无法帮助打破全局性障碍;(ii)受过训练的备忘录如果在每一步都打破全局性,则可以提供帮助,但是并非所有此类备忘录都能泛化到非分布式 (OOD) 样本;(iii)一种“归纳式备忘录”的概念,它能更有效地组合先验信息,既可以打破全局性障碍,又能提高 OOD 泛化能力。特别是,对于某些算术任务,一些归纳式备忘录可以根据输入格式实现高达 6 倍的长度泛化。