摘要
arXiv:2403.17918v3 通知类型: 替换
摘要: 通用虚拟代理需要处理多模态观测,掌握复杂的动作空间,并在动态开放域环境中自我提升。然而,现有的环境往往是特定领域的,并需要复杂的设置,这限制了代理在现实世界环境中的开发和评估。因此,当前的评估缺乏对基本代理能力的深入分析。我们提出了 AgentStudio,一种环境、工具和基准的三位一体,以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境,具有高度通用的观测和动作空间,例如视频观测和GUI/API 动作。它集成了创建在线基准任务、标注 GUI 元素和在视频中标注动作的工具。基于我们的环境和工具,我们精选了一个在线任务套件,用于评估 GUI 交互和函数调用的高效自动评估。我们还重组了现有的数据集,并使用我们的工具收集新的数据集,建立了三个数据集:GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本的代理能力,包括 GUI 地基、从视频中学习和成功检测,指出了鲁棒、通用和开放性虚拟代理的期望特性。