LLM2D
移动视觉语言模型:提升界面内与界面间理解的视觉语言模型
MobileVLM: A Vision-Language Model for Better Intra- and Inter-UI Understanding
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14818v1

摘要

arXiv:2409.14818v1 公告类型: 交叉 摘要: 近期,基于视觉语言模型(VLM)的移动AI代理引起了越来越多的关注。这些研究通常利用VLM作为基础,通过基于指令的移动数据集对其进行微调。然而,这些VLM通常在通用领域数据上进行预训练,这往往导致缺乏移动领域特有的基本能力。因此,它们可能在识别特定UI元素和理解UI内部细粒度信息方面表现不佳。此外,当前的微调任务主要集中在与给定指令最相关的元素上。这些微调后的VLM可能仍然忽视了UI页面之间的关系,忽略了元素在页面转换中的作用,并缺乏跨UI的理解。为了解决这些问题,我们提出了一种名为MobileVLM的VLM,它包括两个额外的预训练阶段,以增强UI内部和跨UI的理解。我们定义了四个基于UI的预训练任务,使模型能够更好地感知细粒度元素并捕捉页面转换动作。为了解决移动预训练数据缺乏的问题,我们从零开始构建了一个大型中文移动数据集Mobile3M,其中包含300万UI页面和真实世界的转换动作,形成了一个有向图结构。实验结果显示,MobileVLM在我们的测试集和公开的移动基准测试中均表现优异,超越了现有的VLM。