摘要
arXiv:2504.14603v1 通知类型: 新
摘要: 近期由多模态大型语言模型驱动的计算机使用代理(CUAs)为通过自然语言自动化复杂桌面工作流提供了有希望的方向。然而,现有的大多数CUAs仍然是概念性的原型,受到浅层操作系统集成、基于屏幕截图的交互的脆弱性以及执行中断的阻碍。我们介绍了UFO2,这是一种为Windows桌面设计的多代理AgentOS,将CUAs提升为实用的系统级自动化。UFO2具备一个中心化的HostAgent用于任务分解和协调,以及一系列具有内置API、领域特定知识和统一的GUI--API操作层的应用程序专门化AppAgent。这种架构使得任务执行更加 robust,同时保持模块化和可扩展性。混合控制检测管道结合了Windows UI自动化(UIA)与基于视觉的解析,以支持多种界面样式。通过推测性多动作规划,进一步提高了运行时效率,减少了每步LLM的开销。最后,一个画中画(PiP)接口使自动化能够在隔离的虚拟桌面中进行,允许代理和用户同时操作而不互相干扰。
我们对UFO2进行了跨20多个真实世界的Windows应用程序的评估,显示其在鲁棒性和执行准确性方面相对于之前的CUAs有显著改进。我们的结果表明,深层次的OS集成有望开辟一条通往可靠、用户对齐的桌面自动化的大规模可行途径。