摘要
大型语言模型能否通过组合已知的推理来预测新的三段论?更一般地,这类模型从头开始可以学习什么样的目标?最近的研究表明,就表达能力而言,Transformer 可能是图灵完备的,但这并没有解决可学习性问题。本文提出了目标分布的“全局性程度”的概念,以捕捉常规 Transformer 何时能够有效地实现弱学习,其中后者衡量的是除了词元直方图之外,还需要多少词元才能与目标产生非平凡的相关性。正如在附加假设下通过实验和理论所证明的那样,具有高全局性的分布无法有效学习。特别是,三段论无法在长链上进行组合。此外,我们还表明:(i)不可知的备忘录无法帮助打破全局性障碍;(ii)受过训练的备忘录如果在每一步都打破全局性,则可以提供帮助,但是并非所有此类备忘录都能泛化到非分布式 (OOD) 样本;(iii)一种“归纳式备忘录”的概念,它能更有效地组合先验信息,既可以打破全局性障碍,又能提高 OOD 泛化能力。特别是,对于某些算术任务,一些归纳式备忘录可以根据输入格式实现高达 6 倍的长度泛化。