摘要
arXiv:2504.00906v1 宣告类型: 新
摘要: 计算机使用代理通过直接与计算机和移动设备上的图形用户界面(GUI)进行交互来自动化数字任务,为通过完成开放的空间用户查询来提高人类生产效率提供了巨大的潜力。然而,当前的代理面临着重大挑战:GUI元素的不精确对齐、长时任务规划的困难,以及依赖单一通用模型进行多种认知任务所带来的性能瓶颈。为此,我们提出了Agent S2,这是一种新的组合理论框架,可以跨越各种通用和专用模型分派认知责任。我们提出了一种新颖的混合对齐技术,以实现精确的GUI定位,并引入了主动分层规划,根据不断演变的观察结果在多个时间尺度上动态细化行动计划。评估结果证明,Agent S2在三个著名计算机使用基准测试上建立了新的最佳性能(SOTA)。具体来说,Agent S2在OSWorld 15步和50步评估上分别相对于领先的基线代理Claude Computer Use和UI-TARS实现了18.9%和32.7%的相对改进。此外,Agent S2有效地泛化到其他操作系统和应用程序,在WindowsAgentArena上超过之前的方法52.8%,在AndroidWorld上相对提高16.52%。代码可在https://github.com/simular-ai/Agent-S获得。