LLM2D

摘要

最近的大型语言模型（LLMs）在数学和逻辑推理任务中展现出了非凡的泛化能力。先前研究表明，使用编程语言数据进行预训练的 LLMs 表现出很高的数学和推理能力；然而，这种因果关系尚未得到严格的检验。我们的研究旨在验证预训练过程中哪些编程语言和特征会影响逻辑推理性能。具体而言，我们使用来自十种编程语言（如 Python、C、Java）和三个自然语言数据集（维基百科、Fineweb、C4）的训练数据，在相同条件下从零开始预训练了基于解码器的语言模型。之后，我们在逻辑推理任务（FLD 和 bAbi）的少样本上下文学习环境中评估了训练后的模型，这些任务不需要常识或世界知识。结果表明，几乎所有使用编程语言训练的模型都始终优于使用自然语言训练的模型，这表明编程语言包含促成逻辑推理性能的因素。此外，我们发现，与使用自然语言训练的模型相比，使用编程语言训练的模型在遵循指令方面表现出更好的能力。进一步分析表明，代表程序解析结果的抽象语法树的深度也会影响逻辑推理性能。这些发现将为理解 LLMs 获得基础能力的预训练必要要素提供见解。