LLM2D

摘要

arXiv:2504.03601v2 宣告类型：replace-cross 摘要：训练有效的多轮交互AI代理需要能够捕捉现实人类-代理动态的高质量数据，然而，这样的数据稀缺且手动收集成本高昂。我们介绍了APIGen-MT，这是一个两阶段框架，用于生成可验证且多样的多轮代理数据。在第一阶段，我们的代理管道生成详细的任务蓝图，包含真实的代理行动，利用LLM评审员的委员会和迭代反馈循环。然后，这些蓝图被转化为通过模拟人类-代理互动而完成的完整交互轨迹。我们训练了一系列模型——xLAM-2-fc-r系列，参数范围从1亿到70亿。我们的模型在$\tau$-bench和BFCL基准测试中表现优于前沿模型如GPT-4o和Claude 3.5，更小的模型尤其在多轮交互设置中超越了更大的模型，同时在多次试验中保持了更优秀的稳健性。全面的实验表明，我们的验证蓝图到详细信息的方法产生了高质量的训练数据，使开发更可靠、更高效的代理成为可能。我们开源了收集的合成数据和训练的xLAM-2-fc-r模型，以推进AI代理研究。模型可在HuggingFace上获取，网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4，项目网站为https://apigen-mt.github.io