LLM2D
SPA-Bench: 智能手机代理评估的综合性基准
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation
作者: Jingxuan Chen, Derek Yuen, Bin Xie, Yuhao Yang, Gongwei Chen, Zhihao Wu, Li Yixing, Xurui Zhou, Weiwen Liu, Shuai Wang, Kaiwen Zhou, Rui Shao, Liqiang Nie, Yasheng Wang, Jianye Hao, Jun Wang, Kun Shao
发布日期: 4/2/2025
arXiv ID: oai:arXiv.org:2410.15164v3

摘要

arXiv:2410.15164v3 宣布类型: 替换 摘要:智能手机代理在帮助用户高效控制设备方面越来越重要,基于(多模态)大型语言模型(MLLM)的方法正在成为关键技术竞争对手。公平比较这些代理至关重要但具有挑战性,需要涵盖不同的任务范围,将具有不同实现的代理整合进来,并建立一个可推广的评估框架来评估它们的优缺点。在本文中,我们提出了SPA-Bench,这是一项全面的智能手机代理基准测试,旨在评估(M)LLM-基于的代理在模拟现实环境的交互环境中。SPA-Bench 提供了三大关键贡献:(1) 一个多样化的任务集,涵盖了英语和中文的系统和第三方应用程序,重点是日常生活中常见的功能;(2) 一个即插即用框架,允许实时与Android设备进行代理交互,并集成了超过十个代理,具有更多的灵活性;(3) 一种创新的评估框架,能够自动从多个维度评估代理性能,包括七个与任务完成和资源消耗相关的指标。我们在任务和代理之间进行了广泛的实验,揭示了诸如解释移动用户界面、动作匹配、记忆保持和执行成本等挑战。我们提出了未来的研究方向,以减轻这些困难,朝着更接近实际智能手机代理应用程序的方向迈进。SPA-Bench 可在 https://ai-agents-2030.github.io/SPA-Bench/ 获取。