摘要
近年来,基于视觉语言模型(VLMs)的移动 AI 智能体越来越受到关注。这些工作通常以 VLM 为基础,并使用基于指令的移动数据集对其进行微调。然而,这些 VLMs 通常是在通用领域数据上进行预训练的,这往往会导致缺乏移动领域特有的基本能力。因此,它们可能难以识别特定 UI 元素并理解 UI 内部细粒度信息。此外,目前的微调任务侧重于与给定指令最相关的元素进行交互。这些微调后的 VLMs 可能会忽略 UI 页面之间的关系,忽视元素在页面转换中的作用,并缺乏 UI 之间的理解。为了解决这些问题,我们提出了一种名为 MobileVLM 的 VLM,它包含两个额外的预训练阶段,以增强 UI 内部和 UI 之间的理解。我们定义了四个基于 UI 的预训练任务,使模型能够更好地感知细粒度元素并捕获页面转换操作。为了解决移动预训练数据不足的问题,我们从零开始构建了一个大型中文移动数据集 Mobile3M,其中包含 300 万个 UI 页面和真实世界的转换操作,形成了一个有向图结构。实验结果表明,MobileVLM 在我们的测试集和公共移动基准测试中表现出色,优于现有的 VLMs。