摘要
arXiv:2501.09766v3 宣告类型: replace-cross
摘要: 将外部工具与大型语言模型(LLMs)结合使用是一种增强其能力的有前景的方法,尤其是在处理复杂任务方面。通过实际模拟合成工具使用数据是一种有效的方法。然而,我们的调查发现:(1) 随着合成数据的增加,训练收益显著下降。模型难以从更多的合成数据中受益,主要是由于潜在的数据多样性问题,导致在复杂场景中表现不佳。此外,我们发现:(2) 这一挑战主要表现为模型输出与真实响应之间的轻微差异(称为缺陷),例如需要从上下文中进行复杂推理来解决的参数值错误。为此,我们提出了一种迭代强化微调策略,旨在缓解这些挑战。该策略包括:(1) 通过蒙特卡洛树搜索路径探索增强合成数据的多样性。(2) 逐步识别与缺陷相关的数据,构建细粒度的偏好对以定位缺陷,然后应用偏好优化来优化这些缺陷。我们的实验表明,使用我们方法训练的模型相较于基线模型实现了约12%的性能提升,优于更大的开源和闭源模型。