LLM2D

摘要

近年来，基于视觉语言模型（VLMs）的移动 AI 智能体越来越受到关注。这些工作通常以 VLM 为基础，并使用基于指令的移动数据集对其进行微调。然而，这些 VLMs 通常是在通用领域数据上进行预训练的，这往往会导致缺乏移动领域特有的基本能力。因此，它们可能难以识别特定 UI 元素并理解 UI 内部细粒度信息。此外，目前的微调任务侧重于与给定指令最相关的元素进行交互。这些微调后的 VLMs 可能会忽略 UI 页面之间的关系，忽视元素在页面转换中的作用，并缺乏 UI 之间的理解。为了解决这些问题，我们提出了一种名为 MobileVLM 的 VLM，它包含两个额外的预训练阶段，以增强 UI 内部和 UI 之间的理解。我们定义了四个基于 UI 的预训练任务，使模型能够更好地感知细粒度元素并捕获页面转换操作。为了解决移动预训练数据不足的问题，我们从零开始构建了一个大型中文移动数据集 Mobile3M，其中包含 300 万个 UI 页面和真实世界的转换操作，形成了一个有向图结构。实验结果表明，MobileVLM 在我们的测试集和公共移动基准测试中表现出色，优于现有的 VLMs。