LLM2D

摘要

我们分析了Transformer语言模型在学习组合离散任务方面的能力。为此，我们在四个需要学习多个离散子任务组成的任务上评估了从头训练LLaMA模型以及提示GPT-4和Gemini。在从头训练LLaMA模型和提示GPT-4和Gemini时，我们都测量了这些模型能够多好地重用在子任务中可观察到的基本单元来学习组合任务。我们的结果表明，最先进的Transformer语言模型中的组合学习效率极低：LLaMA需要比从头重新学习所有子任务更多的样本才能学习组合任务；少量样本的上下文提示不可靠，并且无法执行子任务或纠正多轮代码生成中的错误。此外，我们利用复杂性理论，通过关注梯度下降在记忆前馈模型方面的样本效率低下的理论分析来支持这些发现。