LLM2D

摘要

arXiv:2505.00024v1 公告类型: cross 摘要: 通过外部工具增强大型语言模型已成为扩展其功能而不仅仅是文本生成任务的关键策略。先前的工作通常通过应用监督微调（SFT）来强制工具调用正确性，或将强模型的推理轨迹进行蒸馏以进行SFT来增强工具使用能力。然而，这两种方法都有所欠缺，要么完全忽略了推理，要么生成了模仿性的推理，从而限制了泛化能力。受到DeepSeek-R1在通过基于规则的强化学习激发推理方面的成功启发，我们使用类似训练范式开发了Nemotron-Research-Tool-N1系列工具使用语言模型。Nemotron-Research-Tool-N1并未严格监督从强模型蒸馏出的中间推理轨迹，而是通过二元奖励对其工具调用的结构有效性和功能正确性进行优化。这种轻量级的监督使模型能够自主内化推理策略，不需要标注的推理轨迹。在BFCL和API-Bank基准测试上的实验表明，基于Qwen-2.5-7B/14B-Instruct构建的Nemotron-Research-Tool-N1-7B和Nemotron-Research-Tool-N1-14B取得了最先进的成果，在两个评估中均优于GPT-4o。