摘要
arXiv:2504.10127v2 通知类型: 重置
摘要:图形用户界面(GUI)代理提供了跨平台的解决方案,用于自动化复杂的数字任务,具有显著的潜在能力来转变生产力工作流。然而,它们的性能通常受限于高质量轨迹数据的稀缺性。为了解决这一限制,我们建议在专门的中期训练阶段对视觉语言模型(VLMs)进行数据丰富、推理密集型任务的训练,然后研究将这些任务纳入如何促进GUI规划场景的一般化。具体而言,我们探索了一系列具有现成指令调优数据的任务,包括GUI感知、多模态推理和文字推理。通过在11个中期训练任务上进行广泛的实验,我们展示了以下几点:(1)任务的一般化证明非常有效,能够在大多数场景中显著提高性能。例如,多模态数学推理在AndroidWorld上绝对提高了6.3%。令人惊讶的是,仅基于文本的数学数据显著提高了GUI网络代理的效果,分别在WebArena上实现了5.6%的改进,在AndroidWorld上实现了5.4%的改进,这表明从文字域到视觉域的跨模态一般化效果显著;(2)与先前的假设相反,GUI感知数据(先前认为与GUI代理任务紧密相关,并广泛用于训练)对最终性能的影响相对较有限;(3)基于这些见解,我们确定了最有效的中期训练任务,并制定了优化混合数据集,分别在WebArena上实现了8.0%的绝对性能改进,在AndroidWorld上实现了12.2%的改进。我们的工作提供了关于GUI代理跨域知识转移的重要见解,并提供了解决这一新兴领域中数据稀缺挑战的一种实用方法。相关代码、数据和模型将可在 https://github.com/hkust-nlp/GUIMid 获取。