LLM2D

摘要

我们提出了 Agent S，一个开放的代理框架，它通过图形用户界面 (GUI) 实现了与计算机的自主交互，旨在通过自动化复杂的多步骤任务来改变人机交互。Agent S 旨在解决自动化计算机任务中的三个关键挑战：获取特定领域知识，规划长期的任务范围以及处理动态的、非统一的界面。为此，Agent S 引入了经验增强分层规划，它从外部知识搜索和内部经验检索中学习，并在多个层面上进行学习，从而促进高效的任务规划和子任务执行。此外，它采用了一种代理-计算机接口 (ACI)，以更好地基于多模态大型语言模型 (MLLM) elicits GUI 代理的推理和控制能力。在 OSWorld 基准测试上的评估表明，Agent S 在成功率方面比基线高出 9.37%（相对提高 83.6%），并取得了新的最先进水平。全面的分析突出了各个组件的有效性，并为未来的改进提供了见解。此外，Agent S 在新发布的 WindowsAgentArena 基准测试中展示了对不同操作系统的广泛泛化能力。代码可在 https://github.com/simular-ai/Agent-S 获得。