LLM2D

摘要

arXiv:2412.15606v2 通知类型：替换摘要：大型语言模型（LLMs）的发展推动了多模态代理的发展，这些代理作为控制器调用外部工具，提供了解决实际任务的可行方法。在这篇论文中，我们提出了一种多模态代理调优方法，该方法自动生成多模态工具使用数据，并调优视觉语言模型（VLM）作为控制器，以进行强大的工具使用推理。为了保持数据质量，我们使用GPT-4o mini模型生成查询、文件和轨迹，随后进行查询文件和轨迹验证。基于数据合成管道，我们收集了包含20000个任务及其工具使用轨迹的MM-Traj数据集。然后，我们通过MM-Traj开发了T3-Agent，该代理是基于VLMs进行轨迹调优以进行工具使用的开发。在GTA和GAIA基准上的评估显示，T3-Agent在两个流行的VLMs：MiniCPM-V-8.5B和Qwen2-VL-7B上实现了持续的改进，比未经训练的VLMs高出20%，显示了所提出的数据合成管道的有效性，从而为工具使用能力提供了高质量的数据。