LLM2D

摘要

arXiv:2410.13757v3 宣布类型: replace-cross 摘要：现有的基于多模态大型语言模型（MLLM）的代理在处理设备上的复杂GUI（图形用户界面）交互时面临重大挑战。这些挑战源于GUI环境的动态性和结构化特征，这些环境集成了文本、图像及空间关系，并且不同页面和任务间操作空间的变异性也带来了挑战。为了解决这些局限性，我们提出MobA，一种新颖的基于MLLM的移动助手系统。MobA引入了一个自适应计划模块，该模块包含了一个反思机制以进行错误恢复，并根据实际环境上下文和动作模块的执行能力动态调整计划。此外，一个多功能的记忆模块提供了全面的记忆支持，以增强适应性和效率。我们还介绍了MobBench，一个用于复杂移动交互的数据集。在MobBench和AndroidArena上的实验结果表明，MobA能够处理动态GUI环境并执行复杂的移动任务。