摘要
arXiv:2501.09766v2 公告类型:替换-交叉
摘要:通过外部工具增强大型语言模型(LLMs)已知是一种增强其能力的方法,尤其是在复杂任务方面。通过现实世界的模拟合成工具使用数据是一种有效的方法。然而,我们的调查表明,(1)随着合成数据的增加,训练收益显著下降。模型难以从更多合成数据中受益,这主要是由于数据多样性问题,导致在复杂场景中的性能较差。此外,我们发现(2)这一挑战主要表现为模型输出与真实响应之间的微小差异(称为不足),比如需要从上下文进行复杂推理才能解决的参数值错误。为此,我们提出了一种迭代强化微调策略,旨在缓解这些挑战。该策略包括:(1)通过蒙特卡洛树搜索路径探索来增强合成数据的多样性。(2)迭代识别与不足相关的数据,构建精细粒度的偏好对以定位不足,然后应用偏好优化来优化这些不足。我们的实验结果显示,使用我们方法训练的模型在性能上比相同规模的模型高出约3%,优于更大规模的开源和闭源模型。