LLM2D
UFO2:桌面代理操作系统
UFO2: The Desktop AgentOS
作者: Chaoyun Zhang, He Huang, Chiming Ni, Jian Mu, Si Qin, Shilin He, Lu Wang, Fangkai Yang, Pu Zhao, Chao Du, Liqun Li, Yu Kang, Zhao Jiang, Suzhen Zheng, Rujia Wang, Jiaxu Qian, Minghua Ma, Jian-Guang Lou, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.14603v2

摘要

arXiv:2504.14603v2 宣告类型: 替换 摘要: 受多模态大型语言模型(LLMs)驱动的计算机使用代理(CUAs)为通过自然语言自动化复杂桌面工作流提供了有前景的方向。然而,现有的大多数CUA仍处于概念原型阶段,受限于浅层的OS集成、基于截图的交互的脆弱性以及干扰性的执行。 我们提出了UFO2,这是一个为Windows桌面设计的多代理AgentOS,旨在将CUA提升为实用级别的系统级自动化。UFO2包括一个中央化的HostAgent用于任务分解和协调,以及一系列具备本机API、领域特定知识和统一的GUI-API动作层的应用特化AppAgent。这种架构使得任务执行变得稳健,同时保持模块化和可扩展性。UFO2采用了一种混合控制检测流水线,结合了Windows UI自动化(UIA)与基于视觉的解析,以支持多样化的界面风格。通过前瞻性的多动作规划,UFO2进一步提高了运行时效率,减少了每步骤LLM的开销。最后,UFO2还提供了一个 Picture-in-Picture (PiP) 接口,允许自动化在隔离的虚拟桌面内运行,使代理和用户能够并发操作而不会相互干扰。 我们在超过20款真实的Windows应用程序上评估了UFO2,结果显示,与之前的CUA相比,UFO2在稳健性和执行准确性方面取得了显著改进。我们的结果表明,深入的OS集成为可靠且用户对齐的桌面自动化提供了一条可扩展的道路。