LLM2D
代理 S:一个将计算机像人类一样使用的开放式代理框架
Agent S: An Open Agentic Framework that Uses Computers Like a Human
作者: Saaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.08164v1

摘要

我们提出了 Agent S,一个开放的代理框架,它通过图形用户界面 (GUI) 实现了与计算机的自主交互,旨在通过自动化复杂的多步骤任务来改变人机交互。Agent S 旨在解决自动化计算机任务中的三个关键挑战:获取特定领域知识,规划长期的任务范围以及处理动态的、非统一的界面。为此,Agent S 引入了经验增强分层规划,它从外部知识搜索和内部经验检索中学习,并在多个层面上进行学习,从而促进高效的任务规划和子任务执行。此外,它采用了一种代理-计算机接口 (ACI),以更好地基于多模态大型语言模型 (MLLM) elicits GUI 代理的推理和控制能力。在 OSWorld 基准测试上的评估表明,Agent S 在成功率方面比基线高出 9.37%(相对提高 83.6%),并取得了新的最先进水平。全面的分析突出了各个组件的有效性,并为未来的改进提供了见解。此外,Agent S 在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛泛化能力。代码可在 https://github.com/simular-ai/Agent-S 获得。