LLM2D

摘要

arXiv:2501.09766v3 宣告类型: replace-cross 摘要: 将外部工具与大型语言模型（LLMs）结合使用是一种增强其能力的有前景的方法，尤其是在处理复杂任务方面。通过实际模拟合成工具使用数据是一种有效的方法。然而，我们的调查发现：(1) 随着合成数据的增加，训练收益显著下降。模型难以从更多的合成数据中受益，主要是由于潜在的数据多样性问题，导致在复杂场景中表现不佳。此外，我们发现：(2) 这一挑战主要表现为模型输出与真实响应之间的轻微差异（称为缺陷），例如需要从上下文中进行复杂推理来解决的参数值错误。为此，我们提出了一种迭代强化微调策略，旨在缓解这些挑战。该策略包括：(1) 通过蒙特卡洛树搜索路径探索增强合成数据的多样性。(2) 逐步识别与缺陷相关的数据，构建细粒度的偏好对以定位缺陷，然后应用偏好优化来优化这些缺陷。我们的实验表明，使用我们方法训练的模型相较于基线模型实现了约12%的性能提升，优于更大的开源和闭源模型。