LLM2D

摘要

大型语言模型能否通过组合已知的推理来预测新的三段论？更一般地，这类模型从头开始可以学习什么样的目标？最近的研究表明，就表达能力而言，Transformer 可能是图灵完备的，但这并没有解决可学习性问题。本文提出了目标分布的“全局性程度”的概念，以捕捉常规 Transformer 何时能够有效地实现弱学习，其中后者衡量的是除了词元直方图之外，还需要多少词元才能与目标产生非平凡的相关性。正如在附加假设下通过实验和理论所证明的那样，具有高全局性的分布无法有效学习。特别是，三段论无法在长链上进行组合。此外，我们还表明：（i）不可知的备忘录无法帮助打破全局性障碍；（ii）受过训练的备忘录如果在每一步都打破全局性，则可以提供帮助，但是并非所有此类备忘录都能泛化到非分布式 (OOD) 样本；（iii）一种“归纳式备忘录”的概念，它能更有效地组合先验信息，既可以打破全局性障碍，又能提高 OOD 泛化能力。特别是，对于某些算术任务，一些归纳式备忘录可以根据输入格式实现高达 6 倍的长度泛化。