LLM2D

摘要

arXiv:2501.01149v2 通告类型: 替换摘要：近年来，随着大型语言模型（LLMs）领域取得了显著进展，人工智能代理变得越来越普遍。移动GUI代理是人工智能代理的一个子集，设计用于自主在移动设备上执行任务。尽管有许多研究引入了代理、数据集和基准以推进移动GUI代理研究，但目前许多现有的数据集关注静态窗口评估，并未能提供一个全面的平台来评估实验在真实世界、自然环境下的表现。为了解决这一差距，我们提出了Android Agent Arena（A3），这是一个新的评估平台。与现有的自然环境系统相比，A3提供了以下特点：（1）实际且具有代表性的任务，如实时在线信息检索和操作指令；（2）更大的、更灵活的动作空间，使任何数据集训练的代理都能相容；以及（3）基于LLM的自动化企业级别评估流程。A3包含21个广泛使用的通用第三方应用程序和201个代表常见用户场景的任务，为在真实世界情况下评估移动GUI代理提供了一个坚实的基座，并提供了一个新的自主评估过程，以减少人力和编程知识的需求。该项目可在https://yuxiangchai.github.io/Android-Agent-Arena/找到。