摘要
arXiv:2505.00024v2 宣传类型: 替换交叉
摘要:使大型语言模型能够使用外部工具已成为扩展其功能到文本空间之外的一项关键策略。为了增强LLMs的调用工具能力,以往的方法主要依赖于强模型蒸馏的监督微调(SFT),通常导致模仿推理,从而限制了泛化能力。在本文中,我们探索基于规则的强化学习,以增强LLMs的工具调用能力,从而形成了Nemotron-Research-Tool-N1这一系列工具调用推理模型。而不是在中间蒸馏的推理轨迹上施加监督,Tool-N1模型通过仅评估工具调用的格式有效性与功能正确性的二元RL奖励进行训练。这种轻量级的监督允许模型独立地开发推理策略,无需依赖注释的轨迹。在几个主要基准上的实验表明,Tool-N1-7B/14B明显优于GPT-4o。我们系统地研究了训练工具调用模型的基于规则的强化学习策略设计。使用5,518个蒸馏的推理轨迹,我们将SFT、RL以及SFT-然后-RL流水线进行比较,发现广泛采用的SFT-然后-RL范式并不一定优于纯RL。