摘要
arXiv:2501.01149v2 通告类型: 替换
摘要:近年来,随着大型语言模型(LLMs)领域取得了显著进展,人工智能代理变得越来越普遍。移动GUI代理是人工智能代理的一个子集,设计用于自主在移动设备上执行任务。尽管有许多研究引入了代理、数据集和基准以推进移动GUI代理研究,但目前许多现有的数据集关注静态窗口评估,并未能提供一个全面的平台来评估实验在真实世界、自然环境下的表现。为了解决这一差距,我们提出了Android Agent Arena(A3),这是一个新的评估平台。与现有的自然环境系统相比,A3提供了以下特点:(1)实际且具有代表性的任务,如实时在线信息检索和操作指令;(2)更大的、更灵活的动作空间,使任何数据集训练的代理都能相容;以及(3)基于LLM的自动化企业级别评估流程。A3包含21个广泛使用的通用第三方应用程序和201个代表常见用户场景的任务,为在真实世界情况下评估移动GUI代理提供了一个坚实的基座,并提供了一个新的自主评估过程,以减少人力和编程知识的需求。该项目可在https://yuxiangchai.github.io/Android-Agent-Arena/找到。