摘要
arXiv:2410.13757v3 宣布类型: replace-cross
摘要:现有的基于多模态大型语言模型(MLLM)的代理在处理设备上的复杂GUI(图形用户界面)交互时面临重大挑战。这些挑战源于GUI环境的动态性和结构化特征,这些环境集成了文本、图像及空间关系,并且不同页面和任务间操作空间的变异性也带来了挑战。为了解决这些局限性,我们提出MobA,一种新颖的基于MLLM的移动助手系统。MobA引入了一个自适应计划模块,该模块包含了一个反思机制以进行错误恢复,并根据实际环境上下文和动作模块的执行能力动态调整计划。此外,一个多功能的记忆模块提供了全面的记忆支持,以增强适应性和效率。我们还介绍了MobBench,一个用于复杂移动交互的数据集。在MobBench和AndroidArena上的实验结果表明,MobA能够处理动态GUI环境并执行复杂的移动任务。