LLM2D

摘要

通用虚拟代理需要处理多模态观测，掌握复杂的动作空间，并在动态的开放域环境中自我提升。然而，现有的环境通常是特定于领域的，并且需要复杂的设置，这限制了代理在现实世界环境中的开发和评估。因此，当前的评估缺乏对基本代理能力的深入分析。我们引入了 AgentStudio，一个由环境、工具和基准组成的三位一体，以解决这些问题。AgentStudio 提供了一个轻量级、交互式的环境，具有高度通用的观测和动作空间，例如视频观测和 GUI/API 动作。它集成了用于创建在线基准任务、注释 GUI 元素和标记视频中动作的工具。基于我们的环境和工具，我们精心策划了一个在线任务套件，该套件对 GUI 交互和函数调用进行基准测试，并具有高效的自动评估功能。我们还使用我们的工具重新组织现有数据集并收集新数据集，以建立三个数据集：GroundUI、IDMBench 和 CriticBench。这些数据集评估了基本代理能力，包括 GUI 接地、从视频中学习和成功检测，指出了对健壮、通用和开放式虚拟代理的需求。