LLM2D

摘要

arXiv:2504.01400v1 类型: cross 摘要: 工具学习使大语言模型（LLMs）能够利用外部工具解决复杂的用户任务，已经成为扩展模型能力的一个有前途的方向。然而，当前的方法主要侧重于数据合成，旨在微调LLMs以有效地调用工具，很大程度上忽视了如何充分激发模型的潜力。在本文中，我们提出了一种名为ToolACE-R的新方法，该方法引入了适应性的自我完善机制以促进工具调用。我们的方法采用了模型感知的迭代训练程序，随着模型能力的逐步提升，逐步整合更多的训练样本。此外，它允许LLMs迭代地改进其工具调用，优化性能而不必依赖外部反馈。为了进一步提高计算效率，我们在扩展推理时间时集成了一种适应性机制，使模型能够自主决定停止改进过程的时间。我们在多个基准数据集上进行了广泛的实验，结果显示ToolACE-R在性能方面与基于高级API的模型相媲美，甚至在没有任何改进的情况下也是如此。此外，通过适应性的自我完善，其性能可以进一步高效地提升。我们的结果表明，所提出的方法的有效性，该方法与不同规模的基模型兼容，为更高效的工具学习提供了有前景的方向。