LLM2D

摘要

arXiv:2502.00691v2 宣称类型: 替换摘要：最近在语言模型（LMs）用于数学问题解决方面的进展结合了链式思考（CoT）推理和代码执行，以利用它们各自的优点。然而，现有的混合框架存在一个关键限制：它们依赖于外部指令或固定的代码集成模板，缺乏元认知意识——即动态评估内在能力并在何时何地自主决定如何集成工具的能力。这种僵化促使我们研究自主代码集成，使模型能够在其训练过程中随着推理能力的演变来适应工具使用策略。虽然增强学习（RL）在大规模提升语言模型（LLMs）的推理能力方面展现出潜力（例如，DeepSeek-R1），但我们展示其在学习自主代码集成方面的低效率，这是因为探索CoT-代码交替模式的广泛组合空间不足。为解决这一挑战，我们提出了一种新颖的期望最大化（EM）框架，该框架将结构化探索（E步）与离策RL优化（M步）相结合，创建了一种自我强化循环，即元认知工具使用决策与其不断发展的能力之间相互促进。实验结果显示，我们的方法通过改进探索实现了更优的结果。值得注意的是，我们的7B模型在MATH500上提高了11%以上，在AIME上的表现提高了9.4%，而无需类似o1的CoT。