LLM2D

摘要

arXiv:2410.15164v3 宣布类型: 替换摘要：智能手机代理在帮助用户高效控制设备方面越来越重要，基于（多模态）大型语言模型（MLLM）的方法正在成为关键技术竞争对手。公平比较这些代理至关重要但具有挑战性，需要涵盖不同的任务范围，将具有不同实现的代理整合进来，并建立一个可推广的评估框架来评估它们的优缺点。在本文中，我们提出了SPA-Bench，这是一项全面的智能手机代理基准测试，旨在评估（M）LLM-基于的代理在模拟现实环境的交互环境中。SPA-Bench 提供了三大关键贡献：(1) 一个多样化的任务集，涵盖了英语和中文的系统和第三方应用程序，重点是日常生活中常见的功能；(2) 一个即插即用框架，允许实时与Android设备进行代理交互，并集成了超过十个代理，具有更多的灵活性；(3) 一种创新的评估框架，能够自动从多个维度评估代理性能，包括七个与任务完成和资源消耗相关的指标。我们在任务和代理之间进行了广泛的实验，揭示了诸如解释移动用户界面、动作匹配、记忆保持和执行成本等挑战。我们提出了未来的研究方向，以减轻这些困难，朝着更接近实际智能手机代理应用程序的方向迈进。SPA-Bench 可在 https://ai-agents-2030.github.io/SPA-Bench/ 获取。