LLM2D
UFO2:桌面代理操作系统
UFO2: The Desktop AgentOS
作者: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
发布日期: 4/22/2025
arXiv ID: oai:arXiv.org:2504.14603v1

摘要

arXiv:2504.14603v1 通知类型: 新 摘要: 近期由多模态大型语言模型驱动的计算机使用代理(CUAs)为通过自然语言自动化复杂桌面工作流提供了有希望的方向。然而,现有的大多数CUAs仍然是概念性的原型,受到浅层操作系统集成、基于屏幕截图的交互的脆弱性以及执行中断的阻碍。我们介绍了UFO2,这是一种为Windows桌面设计的多代理AgentOS,将CUAs提升为实用的系统级自动化。UFO2具备一个中心化的HostAgent用于任务分解和协调,以及一系列具有内置API、领域特定知识和统一的GUI--API操作层的应用程序专门化AppAgent。这种架构使得任务执行更加 robust,同时保持模块化和可扩展性。混合控制检测管道结合了Windows UI自动化(UIA)与基于视觉的解析,以支持多种界面样式。通过推测性多动作规划,进一步提高了运行时效率,减少了每步LLM的开销。最后,一个画中画(PiP)接口使自动化能够在隔离的虚拟桌面中进行,允许代理和用户同时操作而不互相干扰。 我们对UFO2进行了跨20多个真实世界的Windows应用程序的评估,显示其在鲁棒性和执行准确性方面相对于之前的CUAs有显著改进。我们的结果表明,深层次的OS集成有望开辟一条通往可靠、用户对齐的桌面自动化的大规模可行途径。