摘要
arXiv:2410.15164v3 宣布类型: 替换
摘要:智能手机代理在帮助用户高效控制设备方面越来越重要,基于(多模态)大型语言模型(MLLM)的方法正在成为关键技术竞争对手。公平比较这些代理至关重要但具有挑战性,需要涵盖不同的任务范围,将具有不同实现的代理整合进来,并建立一个可推广的评估框架来评估它们的优缺点。在本文中,我们提出了SPA-Bench,这是一项全面的智能手机代理基准测试,旨在评估(M)LLM-基于的代理在模拟现实环境的交互环境中。SPA-Bench 提供了三大关键贡献:(1) 一个多样化的任务集,涵盖了英语和中文的系统和第三方应用程序,重点是日常生活中常见的功能;(2) 一个即插即用框架,允许实时与Android设备进行代理交互,并集成了超过十个代理,具有更多的灵活性;(3) 一种创新的评估框架,能够自动从多个维度评估代理性能,包括七个与任务完成和资源消耗相关的指标。我们在任务和代理之间进行了广泛的实验,揭示了诸如解释移动用户界面、动作匹配、记忆保持和执行成本等挑战。我们提出了未来的研究方向,以减轻这些困难,朝着更接近实际智能手机代理应用程序的方向迈进。SPA-Bench 可在 https://ai-agents-2030.github.io/SPA-Bench/ 获取。