LLM2D
多面记忆增强自适应规划以实现高效的移动任务自动化
MobA: Multifaceted Memory-Enhanced Adaptive Planning for Efficient Mobile Task Automation
作者: Zichen Zhu, Hao Tang, Yansi Li, Dingye Liu, Hongshen Xu, Kunyao Lan, Danyang Zhang, Yixuan Jiang, Hao Zhou, Chenrun Wang, Situo Zhang, Liangtai Sun, Yixiao Wang, Yuheng Sun, Lu Chen, Kai Yu
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2410.13757v3

摘要

arXiv:2410.13757v3 宣布类型: replace-cross 摘要:现有的基于多模态大型语言模型(MLLM)的代理在处理设备上的复杂GUI(图形用户界面)交互时面临重大挑战。这些挑战源于GUI环境的动态性和结构化特征,这些环境集成了文本、图像及空间关系,并且不同页面和任务间操作空间的变异性也带来了挑战。为了解决这些局限性,我们提出MobA,一种新颖的基于MLLM的移动助手系统。MobA引入了一个自适应计划模块,该模块包含了一个反思机制以进行错误恢复,并根据实际环境上下文和动作模块的执行能力动态调整计划。此外,一个多功能的记忆模块提供了全面的记忆支持,以增强适应性和效率。我们还介绍了MobBench,一个用于复杂移动交互的数据集。在MobBench和AndroidArena上的实验结果表明,MobA能够处理动态GUI环境并执行复杂的移动任务。