LLM2D
突破数据壁垒——通过任务泛化构建GUI代理
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization
作者: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.10127v1

摘要

arXiv:2504.10127v1 宣告类型: 新 摘要: 图形用户界面(GUI)代理为自动化复杂的数字任务提供了跨平台的解决方案,并具有显著的潜力来转变生产力工作流程。然而,它们的性能往往受到高质量轨迹数据稀缺的限制。为了解决这一局限,我们提议在专门的中期训练阶段对视觉语言模型(VLMs)进行数据丰富、推理密集型任务的训练,然后研究这些任务如何促进对GUI规划场景的泛化。具体来说,我们探索了一系列具有现成指令调优数据的任务范围,包括GUI感知、多模态推理和文本推理。通过在11个中期训练任务上进行广泛的实验,我们证明了:(1)任务泛化证明非常有效,在大多数设置中均取得了显著的改进。例如,多模态数学推理在AndroidWorld上的绝对性能提升了6.3%。值得注意的是,仅基于文本的数学数据在GUI网络代理性能上产生了显著的提升,在WebArena上提升了5.6%,在AndroidWorld上提升了5.4%,突显了从基于文本到视觉域的跨模态泛化的显著性;(2)与先前的假设相反,GUI感知数据——之前被认为与GUI代理任务紧密对齐,并广泛用于训练——对最终性能的影响相对有限;(3)在此基础上,我们识别出最有效的中期训练任务,并编制优化后的混合数据集,结果在WebArena上绝对性能提高了8.0%,在AndroidWorld上提高了12.2%。我们的工作为GUI代理的跨域知识迁移提供了有价值的见解,并为解决这一新兴领域中数据稀缺挑战提供了实用的方法。代码、数据和模型将在 https://github.com/hkust-nlp/GUIMid 提供。