LLM2D

摘要

在开源大型语言模型（LLMs）中，对代理-环境交互轨迹数据进行微调，对于展现出泛化的代理能力具有重大意义。在这项工作中，我们介绍了 AgentBank，它是迄今为止最大的轨迹调优数据集合，包含超过 5 万个多样化的高质量交互轨迹，涵盖 16 个任务，涉及五个不同的代理技能维度。利用新颖的标注流程，我们能够扩展标注的轨迹，并生成一个难度偏差最小的轨迹数据集。此外，我们对 AgentBank 上的 LLMs 进行微调，以获得一系列代理模型，即萨摩耶犬。我们的对比实验表明，扩展交互轨迹数据以获取泛化的代理能力是有效的。额外的研究还揭示了一些关于轨迹调优和代理技能泛化的关键观察结果。