LLM2D
轻量级神经应用程序控制
Lightweight Neural App Control
作者: Filippos Christianos, Georgios Papoudakis, Thomas Coste, Jianye Hao, Jun Wang, Kun Shao
发布日期: 2/13/2025
arXiv ID: oai:arXiv.org:2410.17883v2

摘要

arXiv:2410.17883v2 宣告类型: 替换 摘要: 本文介绍了一种新型的移动电话控制架构——轻量级多模态应用控制(LiMAC),用于高效地在各种Android应用之间进行交互和控制。LiMAC接受文本目标和一系列过去的移动观察作为输入,例如截屏和相应的UI树,以生成精确的动作。为了解决智能手机固有的计算限制,我们引入了一个与精细调整的视觉语言模型(VLM)集成的小型动作变换器(AcT),用于实时决策和任务执行。我们使用两个开源移动控制数据集评估了LiMAC,结果显示,与开源VLM的精细调整版本相比,我们的小型元件方法在性能上优越。该方法还显著优于使用封闭源基础模型如GPT-4o的提示工程基线。具体来说,与精细调整的VLM相比,LiMAC的整体动作准确率提高了最多19%;与提示工程基线相比,提高了最多42%。