LLM2D

摘要

arXiv:2501.09766v2 公告类型：替换-交叉摘要：通过外部工具增强大型语言模型（LLMs）已知是一种增强其能力的方法，尤其是在复杂任务方面。通过现实世界的模拟合成工具使用数据是一种有效的方法。然而，我们的调查表明，（1）随着合成数据的增加，训练收益显著下降。模型难以从更多合成数据中受益，这主要是由于数据多样性问题，导致在复杂场景中的性能较差。此外，我们发现（2）这一挑战主要表现为模型输出与真实响应之间的微小差异（称为不足），比如需要从上下文进行复杂推理才能解决的参数值错误。为此，我们提出了一种迭代强化微调策略，旨在缓解这些挑战。该策略包括：（1）通过蒙特卡洛树搜索路径探索来增强合成数据的多样性。（2）迭代识别与不足相关的数据，构建精细粒度的偏好对以定位不足，然后应用偏好优化来优化这些不足。我们的实验结果显示，使用我们方法训练的模型在性能上比相同规模的模型高出约3%，优于更大规模的开源和闭源模型。