LLM2D

摘要

arXiv:2502.00691v1 工具集成类型: 新摘要: 近期关于数学大型语言模型（LLMs）工具集成的研究旨在结合链式思考（CoT）推理和代码执行的互补优势。然而，我们发现一个关键限制：当前的数学LLM工具集成依赖于外部指令来决定是否使用CoT或代码，缺乏在没有可靠监督的情况下自主选择最合适的策略的能力。这促使我们研究数学LLM的自主代码集成，使得模型能够在没有可靠监督的情况下独立地发展其自己的方法论选择策略。为了应对这一挑战，我们提出了一种创新的期望最大化（EM）形式化方法，通过探索其能力来改进模型的决策。该框架交替进行以下两个步骤：（a）计算一个参考策略，通过自我探索提高模型对其能力的信念；（b）根据改进后的信念更新模型。我们进一步通过高效的实现增强了这一框架，包括引入一种新颖的数据合成策略和离策训练策略。广泛的实验表明，仅使用公开查询集，我们的方法显著提升了现有数学LLM的表现，在具有挑战性的MATH基准测试中准确率提高了近20%，达到了65.28%，同时代码执行降低了高达65%。