LLM2D
AgentStudio:构建通用虚拟代理的工具包
AgentStudio: A Toolkit for Building General Virtual Agents
作者: Longtao Zheng, Zhiyuan Huang, Zhenghai Xue, Xinrun Wang, Bo An, Shuicheng Yan
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2403.17918v2

摘要

通用虚拟代理需要处理多模态观测,掌握复杂的动作空间,并在动态的开放域环境中自我提升。然而,现有的环境通常是特定于领域的,并且需要复杂的设置,这限制了代理在现实世界环境中的开发和评估。因此,当前的评估缺乏对基本代理能力的深入分析。我们引入了 AgentStudio,一个由环境、工具和基准组成的三位一体,以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境,具有高度通用的观测和动作空间,例如视频观测和 GUI/API 动作。它集成了用于创建在线基准任务、注释 GUI 元素和标记视频中动作的工具。基于我们的环境和工具,我们精心策划了一个在线任务套件,该套件对 GUI 交互和函数调用进行基准测试,并具有高效的自动评估功能。我们还使用我们的工具重新组织现有数据集并收集新数据集,以建立三个数据集:GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本代理能力,包括 GUI 接地、从视频中学习和成功检测,指出了对健壮、通用和开放式虚拟代理的需求。