LLM2D
iTool:通过迭代强化 fine-tuning 提升大型语言模型的工具使用能力
iTool: Boosting Tool Use of Large Language Models via Iterative Reinforced Fine-Tuning
作者: Yirong Zeng, Xiao Ding, Yuxian Wang, Weiwen Liu, Wu Ning, Yutai Hou, Xu Huang, Bing Qin, Ting Liu
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2501.09766v2

摘要

arXiv:2501.09766v2 公告类型:替换-交叉 摘要:通过外部工具增强大型语言模型(LLMs)已知是一种增强其能力的方法,尤其是在复杂任务方面。通过现实世界的模拟合成工具使用数据是一种有效的方法。然而,我们的调查表明,(1)随着合成数据的增加,训练收益显著下降。模型难以从更多合成数据中受益,这主要是由于数据多样性问题,导致在复杂场景中的性能较差。此外,我们发现(2)这一挑战主要表现为模型输出与真实响应之间的微小差异(称为不足),比如需要从上下文进行复杂推理才能解决的参数值错误。为此,我们提出了一种迭代强化微调策略,旨在缓解这些挑战。该策略包括:(1)通过蒙特卡洛树搜索路径探索来增强合成数据的多样性。(2)迭代识别与不足相关的数据,构建精细粒度的偏好对以定位不足,然后应用偏好优化来优化这些不足。我们的实验结果显示,使用我们方法训练的模型在性能上比相同规模的模型高出约3%,优于更大规模的开源和闭源模型。