摘要
随着多模态大型语言模型 (MLLM) 的发展,由 LLM驱动的视觉代理正日益影响软件界面,特别是那些具有图形用户界面的界面。这项工作介绍了一种新颖的基于 LLM 的多模态代理框架,用于移动设备。该框架能够在移动设备上导航,模拟人类般的交互。我们的代理构建了一个灵活的动作空间,增强了对各种应用的适应性,包括解析器、文本和视觉描述。代理通过两个主要阶段运行:探索和部署。在探索阶段,用户界面元素的功能通过代理驱动的或手动探索记录到一个定制的结构化知识库中。在部署阶段,RAG 技术使从该知识库中高效检索和更新成为可能,从而使代理能够有效且准确地执行任务。这包括跨各种应用程序执行复杂的多步骤操作,从而证明了该框架在处理定制任务工作流程方面的适应性和精确性。我们在各种基准上的实验结果证明了该框架的优越性能,证实了其在现实场景中的有效性。我们的代码将很快开源。