LLM2D

摘要

arXiv:2505.01441v1 宣布类型: 新闻摘要: 大型语言模型（LLMs）在复杂推理任务中取得了显著进展，但它们仍然因其依赖静态内部知识和仅基于文本的推理而受到根本限制。现实生活中的问题解决往往需要动态、多步骤的推理、适应性决策以及与外部工具和环境互动的能力。在本工作中，我们引入了ARTIST（自主推理和自我改进变换器中的工具集成），这是一种统一框架，将自主推理、强化学习和工具集成紧密结合在一起，为LLMs提供支持。ARTIST使模型能够自主决定何时、如何以及使用哪些工具在多轮推理链中进行调用，通过基于结果的强化学习来学习工具使用和环境互动的稳健策略，而不需要逐步骤的监督。在数学推理和多轮函数调用基准测试中的广泛实验表明，ARTIST在所有基准测试中都优于最先进的基线，相较于基模型的绝对改进率最高可达22%，在最具有挑战性的任务上也取得了显著的增益。详细的分析和度量研究揭示了自主强化学习训练导致更深入的推理、更有效的工具使用和更高质量的解决方案。我们的结果确立了自主强化学习与工具集成作为LLMs中强大、可解释和可泛化的解决问题的新前沿。