LLM2D

摘要

arXiv:2409.14818v1 公告类型: 交叉摘要: 近期，基于视觉语言模型（VLM）的移动AI代理引起了越来越多的关注。这些研究通常利用VLM作为基础，通过基于指令的移动数据集对其进行微调。然而，这些VLM通常在通用领域数据上进行预训练，这往往导致缺乏移动领域特有的基本能力。因此，它们可能在识别特定UI元素和理解UI内部细粒度信息方面表现不佳。此外，当前的微调任务主要集中在与给定指令最相关的元素上。这些微调后的VLM可能仍然忽视了UI页面之间的关系，忽略了元素在页面转换中的作用，并缺乏跨UI的理解。为了解决这些问题，我们提出了一种名为MobileVLM的VLM，它包括两个额外的预训练阶段，以增强UI内部和跨UI的理解。我们定义了四个基于UI的预训练任务，使模型能够更好地感知细粒度元素并捕捉页面转换动作。为了解决移动预训练数据缺乏的问题，我们从零开始构建了一个大型中文移动数据集Mobile3M，其中包含300万UI页面和真实世界的转换动作，形成了一个有向图结构。实验结果显示，MobileVLM在我们的测试集和公开的移动基准测试中均表现优异，超越了现有的VLM。