LLM2D

摘要

arXiv:2504.13958v1 宣布类型:跨领域摘要：当前的大语言模型（LLMs）通常通过监督微调（SFT）来获取工具使用能力。然而，SFT在应对不熟悉或复杂的工具使用场景时难以泛化。最近在强化学习（RL）领域的进展，特别是R1-like模型，展示了令人振奋的推理和泛化能力。然而，工具使用的奖励设计面临着独特的挑战：多个工具可能被调用，并带有不同的参数，粗粒度的奖励信号，如答案匹配，无法提供有效的学习所需的细粒度反馈。本文我们提出了第一个在RL范式下关于工具选择和应用任务中的奖励设计的全面研究。我们系统地探索了一系列广泛的奖励策略，分析了它们的类型、规模、粒度和时间动态。基于这些洞察，我们提出了一种适用于工具使用任务的原理化奖励设计，并将其应用于使用群体相对策略优化（GRPO）训练LLMs。通过对多种基准的实证评估表明，我们的方法能够实现稳健、可扩展和稳定的训练，相比基线模型提高了17%的性能，相比监督微调模型提高了15%的性能。这些结果突显了在提升大语言模型工具使用能力和泛化性能中精心设计奖励的重要性。所有代码均已开源，以促进未来的研究。