摘要
arXiv:2504.03601v2 宣告类型:replace-cross
摘要:训练有效的多轮交互AI代理需要能够捕捉现实人类-代理动态的高质量数据,然而,这样的数据稀缺且手动收集成本高昂。我们介绍了APIGen-MT,这是一个两阶段框架,用于生成可验证且多样的多轮代理数据。在第一阶段,我们的代理管道生成详细的任务蓝图,包含真实的代理行动,利用LLM评审员的委员会和迭代反馈循环。然后,这些蓝图被转化为通过模拟人类-代理互动而完成的完整交互轨迹。我们训练了一系列模型——xLAM-2-fc-r系列,参数范围从1亿到70亿。我们的模型在$\tau$-bench和BFCL基准测试中表现优于前沿模型如GPT-4o和Claude 3.5,更小的模型尤其在多轮交互设置中超越了更大的模型,同时在多次试验中保持了更优秀的稳健性。全面的实验表明,我们的验证蓝图到详细信息的方法产生了高质量的训练数据,使开发更可靠、更高效的代理成为可能。我们开源了收集的合成数据和训练的xLAM-2-fc-r模型,以推进AI代理研究。模型可在HuggingFace上获取,网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站为https://apigen-mt.github.io