LLM2D

摘要

arXiv:2504.03601v1 宣告类型: cross 摘要: 训练有效的多轮交互AI代理需要能够捕捉到真实的人机动态的高质量数据，但这种数据稀缺且手动收集成本高昂。我们引入了APIGen-MT，这是一种两阶段框架，用于生成可验证且多样化的多轮交互代理数据。在第一阶段，我们的代理管道利用LLM评审委员会和迭代反馈循环生成详细的任务蓝图，其中包括真实动作。然后，将这些蓝图转化为完整的交互轨迹，通过模拟的人机互动实现。我们训练了一系列模型——xLAM-2-fc-r系列，参数范围从1B到70B。我们的模型在$\tau$-bench和BFCL基准测试中表现优于GPT-4o和Claude 3.5等最新模型，其中较小的模型在多轮设置中尤其超越了较大版本，同时在多次试验中保持了更高的一致性。全面的实验表明，我们验证过的蓝图到详细数据的方法生成了高质量的训练数据，有助于开发更可靠、更高效且更强大的代理。我们开源了收集的合成数据和训练过的xLAM-2-fc-r模型，以促进AI代理领域的研究。模型可在HuggingFace上获取，网址为https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4，项目网站是https://apigen-mt.github.io