LLM2D

摘要

arXiv:2403.17918v3 通知类型: 替换摘要: 通用虚拟代理需要处理多模态观测，掌握复杂的动作空间，并在动态开放域环境中自我提升。然而，现有的环境往往是特定领域的，并需要复杂的设置，这限制了代理在现实世界环境中的开发和评估。因此，当前的评估缺乏对基本代理能力的深入分析。我们提出了 AgentStudio，一种环境、工具和基准的三位一体，以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境，具有高度通用的观测和动作空间，例如视频观测和GUI/API 动作。它集成了创建在线基准任务、标注 GUI 元素和在视频中标注动作的工具。基于我们的环境和工具，我们精选了一个在线任务套件，用于评估 GUI 交互和函数调用的高效自动评估。我们还重组了现有的数据集，并使用我们的工具收集新的数据集，建立了三个数据集：GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本的代理能力，包括 GUI 地基、从视频中学习和成功检测，指出了鲁棒、通用和开放性虚拟代理的期望特性。