摘要
arXiv:2504.14603v2 宣告类型: 替换
摘要: 受多模态大型语言模型(LLMs)驱动的计算机使用代理(CUAs)为通过自然语言自动化复杂桌面工作流提供了有前景的方向。然而,现有的大多数CUA仍处于概念原型阶段,受限于浅层的OS集成、基于截图的交互的脆弱性以及干扰性的执行。
我们提出了UFO2,这是一个为Windows桌面设计的多代理AgentOS,旨在将CUA提升为实用级别的系统级自动化。UFO2包括一个中央化的HostAgent用于任务分解和协调,以及一系列具备本机API、领域特定知识和统一的GUI-API动作层的应用特化AppAgent。这种架构使得任务执行变得稳健,同时保持模块化和可扩展性。UFO2采用了一种混合控制检测流水线,结合了Windows UI自动化(UIA)与基于视觉的解析,以支持多样化的界面风格。通过前瞻性的多动作规划,UFO2进一步提高了运行时效率,减少了每步骤LLM的开销。最后,UFO2还提供了一个 Picture-in-Picture (PiP) 接口,允许自动化在隔离的虚拟桌面内运行,使代理和用户能够并发操作而不会相互干扰。
我们在超过20款真实的Windows应用程序上评估了UFO2,结果显示,与之前的CUA相比,UFO2在稳健性和执行准确性方面取得了显著改进。我们的结果表明,深入的OS集成为可靠且用户对齐的桌面自动化提供了一条可扩展的道路。