LLM2D
AppVLM:一种轻量级的视觉语言模型用于在线应用控制
AppVLM: A Lightweight Vision Language Model for Online App Control
作者: Georgios Papoudakis, Thomas Coste, Zhihao Wu, Jianye Hao, Jun Wang, Kun Shao
发布日期: 2/11/2025
arXiv ID: oai:arXiv.org:2502.06395v1

摘要

arXiv:2502.06395v1 Announce Type: 新 摘要:将基础模型作为智能手机助手,称为应用代理(app agents),是一项关键的研究挑战。这些代理通过解释文本指令并在设备界面上执行动作来执行人类指令。尽管前景广阔,但当前的方法面临显著的限制。使用大型专有模型的方法,如GPT-4o,计算成本高昂,而使用较小的微调模型的方法往往在处理边缘任务时缺乏适应性。在这项工作中,我们引入了AppVLM,这是一种轻量级的视觉语言模型(VLM)。首先,我们在AndroidControl数据集上对其进行离线微调。然后,通过从AndroidWorld环境收集数据并进行进一步的训练迭代来优化其策略。我们的结果显示,在AndroidControl数据集上的离线评估中,AppVLM实现了最高的动作预测准确性,相比所有评估的基础模型基线,其准确率最高,而在AndroidWorld环境中,它在在线任务完成成功率方面与GPT-4o相当,但速度快了十倍。这使AppVLM成为一种实用且高效的实时部署解决方案。