摘要
arXiv:2504.03601v3 宣告类型: replace-cross
摘要:为多轮交互训练有效的AI代理需要能够捕捉现实人类-代理动态的高质量数据,但此类数据稀缺且手工收集成本高昂。我们提出了APIGen-MT,这是一种两阶段框架,用于生成可验证和多样的多轮代理数据。在第一阶段,我们的代理管道利用LLM复查员和迭代反馈循环生成详细的任务蓝图,带有真实动作。然后,这些蓝图通过模拟的人-代理互动转换为完整的交互轨迹。我们训练了一组模型——xLAM-2-fc-r系列,参数量从1B到70B不等。我们的模型在$\tau$-bench和BFCL基准测试中优于GPT-4o和Claude 3.5等前沿模型,小型模型在多轮设置中尤其超越其较大对应物,同时在多次试验中保持了更优越的一致性。全面的实验表明,我们验证的蓝图到细节的方法能够生成高质量的训练数据,从而促进更可靠、更高效、更强大的代理的开发。我们开源了5K合成数据轨迹和训练好的xLAM-2-fc-r模型,以推动AI代理研究的发展。可以通过以下链接访问模型、数据集和网站:
模型:https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4
数据集:https://huggingface.co/datasets/Salesforce/APIGen-MT-5k
网站:https://apigen-mt.github.io