LLM2D
多模态代理调整:构建一个由VLM驱动的高效工具使用代理
Multi-modal Agent Tuning: Building a VLM-Driven Agent for Efficient Tool Usage
作者: Zhi Gao, Bofei Zhang, Pengxiang Li, Xiaojian Ma, Tao Yuan, Yue Fan, Yuwei Wu, Yunde Jia, Song-Chun Zhu, Qing Li
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2412.15606v2

摘要

arXiv:2412.15606v2 通知类型:替换 摘要:大型语言模型(LLMs)的发展推动了多模态代理的发展,这些代理作为控制器调用外部工具,提供了解决实际任务的可行方法。在这篇论文中,我们提出了一种多模态代理调优方法,该方法自动生成多模态工具使用数据,并调优视觉语言模型(VLM)作为控制器,以进行强大的工具使用推理。为了保持数据质量,我们使用GPT-4o mini模型生成查询、文件和轨迹,随后进行查询文件和轨迹验证。基于数据合成管道,我们收集了包含20000个任务及其工具使用轨迹的MM-Traj数据集。然后,我们通过MM-Traj开发了T3-Agent,该代理是基于VLMs进行轨迹调优以进行工具使用的开发。在GTA和GAIA基准上的评估显示,T3-Agent在两个流行的VLMs:MiniCPM-V-8.5B和Qwen2-VL-7B上实现了持续的改进,比未经训练的VLMs高出20%,显示了所提出的数据合成管道的有效性,从而为工具使用能力提供了高质量的数据。