LLM2D

摘要

arXiv:2502.07316v1 交叉公告类型摘要：推理是大型语言模型的一项基本能力。尽管先前的研究主要集中在增强数学或代码生成等狭窄技能上，但由于缺乏连贯的训练数据，提高在许多其他推理任务上的性能仍然具有挑战性。为了解决这个问题，我们提出了CodeI/O，一种新颖的方法，通过将原始代码转换为代码输入-输出预测格式，系统地浓缩嵌入在上下文相关代码中的各种推理模式。通过训练模型以自然语言形式（Chain-of-Thought，即CoT合乎逻辑的理由）预测给定代码和测试案例的输入/输出，它们可以接触到通用的推理基础 -- 如逻辑流程规划、状态空间搜索、决策树遍历和模块化分解 -- 而不将结构化推理与代码特定的语法脱钩，并保持程序上的严谨性。实验结果表明，CodeI/O在符号、科学、逻辑、数学和数值以及常识推理任务中均取得了一致改进。通过将现有真实输出与预测输入匹配或重新执行代码，我们验证每个预测，并通过多回合修订进一步增强CoTs，从而获得CodeI/O++并实现更高的性能。我们的数据和模型可在https://github.com/hkust-nlp/CodeIO获得。