LLM2D

摘要

arXiv:2504.03601v3 宣告类型: replace-cross 摘要：为多轮交互训练有效的AI代理需要能够捕捉现实人类-代理动态的高质量数据，但此类数据稀缺且手工收集成本高昂。我们提出了APIGen-MT，这是一种两阶段框架，用于生成可验证和多样的多轮代理数据。在第一阶段，我们的代理管道利用LLM复查员和迭代反馈循环生成详细的任务蓝图，带有真实动作。然后，这些蓝图通过模拟的人-代理互动转换为完整的交互轨迹。我们训练了一组模型——xLAM-2-fc-r系列，参数量从1B到70B不等。我们的模型在$\tau$-bench和BFCL基准测试中优于GPT-4o和Claude 3.5等前沿模型，小型模型在多轮设置中尤其超越其较大对应物，同时在多次试验中保持了更优越的一致性。全面的实验表明，我们验证的蓝图到细节的方法能够生成高质量的训练数据，从而促进更可靠、更高效、更强大的代理的开发。我们开源了5K合成数据轨迹和训练好的xLAM-2-fc-r模型，以推动AI代理研究的发展。可以通过以下链接访问模型、数据集和网站：模型：https://huggingface.co/collections/Salesforce/xlam-2-67ef5be12949d8dcdae354c4 数据集：https://huggingface.co/datasets/Salesforce/APIGen-MT-5k 网站：https://apigen-mt.github.io