摘要
arXiv:2504.03601v1 宣告类型: cross
摘要: 训练有效的多轮交互AI代理需要能够捕捉到真实的人机动态的高质量数据,但这种数据稀缺且手动收集成本高昂。我们引入了APIGen-MT,这是一种两阶段框架,用于生成可验证且多样化的多轮交互代理数据。在第一阶段,我们的代理管道利用LLM评审委员会和迭代反馈循环生成详细的任务蓝图,其中包括真实动作。然后,将这些蓝图转化为完整的交互轨迹,通过模拟的人机互动实现。我们训练了一系列模型——xLAM-2-fc-r系列,参数范围从1B到70B。我们的模型在$\tau$-bench和BFCL基准测试中表现优于GPT-4o和Claude 3.5等最新模型,其中较小的模型在多轮设置中尤其超越了较大版本,同时在多次试验中保持了更高的一致性。全面的实验表明,我们验证过的蓝图到详细数据的方法生成了高质量的训练数据,有助于开发更可靠、更高效且更强大的代理。我们开源了收集的合成数据和训练过的xLAM-2-fc-r模型,以促进AI代理领域的研究。模型可在HuggingFace上获取,网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4,项目网站是https://apigen-mt.github.io