LLM2D
MMAC-协作副驾: 多模态代理协作操作系统
MMAC-Copilot: Multi-modal Agent Collaboration Operating Copilot
作者: Zirui Song, Yaohang Li, Meng Fang, Yanda Li, Zhenhao Chen, Zecheng Shi, Yuan Huang, Xiuying Chen, Ling Chen
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2404.18074v3

摘要

arXiv:2404.18074v3 宣传类型: 更改 摘要: 与个人电脑应用交互的大规模语言模型代理往往因其与现实环境交互方式的单一性而受到限制,导致其实用性受限和频繁出现幻觉。为了解决这一问题,我们提出了多模态代理协作框架(MMAC-Copilot),该框架利用多样代理的集体专业知识来增强与应用的交互能力。该框架引入了一种团队协作链,使每个参与的代理能够根据其特定领域的专业知识贡献见解,有效减少由于知识领域差距引起的幻觉。我们使用GAIA基准和我们新引入的视觉交互基准(VIBench)评估了MMAC-Copilot。MMAC-Copilot在GAIA上的表现尤为出色,与现有领先系统相比,平均改进了6.8%。VIBench专注于跨不同领域的非API可交互应用程序,包括3D游戏、娱乐和办公室场景。它也在VIBench上展示了出色的性能。我们希望这项工作能为这一领域提供灵感,并提供对自主代理更加全面的评估。匿名GitHub代码库可在https://anonymous.4open.science/r/ComputerAgentWithVision-3C12访问。