LLM2D

摘要

arXiv:2504.10127v1 宣告类型: 新摘要: 图形用户界面（GUI）代理为自动化复杂的数字任务提供了跨平台的解决方案，并具有显著的潜力来转变生产力工作流程。然而，它们的性能往往受到高质量轨迹数据稀缺的限制。为了解决这一局限，我们提议在专门的中期训练阶段对视觉语言模型（VLMs）进行数据丰富、推理密集型任务的训练，然后研究这些任务如何促进对GUI规划场景的泛化。具体来说，我们探索了一系列具有现成指令调优数据的任务范围，包括GUI感知、多模态推理和文本推理。通过在11个中期训练任务上进行广泛的实验，我们证明了：（1）任务泛化证明非常有效，在大多数设置中均取得了显著的改进。例如，多模态数学推理在AndroidWorld上的绝对性能提升了6.3%。值得注意的是，仅基于文本的数学数据在GUI网络代理性能上产生了显著的提升，在WebArena上提升了5.6%，在AndroidWorld上提升了5.4%，突显了从基于文本到视觉域的跨模态泛化的显著性；（2）与先前的假设相反，GUI感知数据——之前被认为与GUI代理任务紧密对齐，并广泛用于训练——对最终性能的影响相对有限；（3）在此基础上，我们识别出最有效的中期训练任务，并编制优化后的混合数据集，结果在WebArena上绝对性能提高了8.0%，在AndroidWorld上提高了12.2%。我们的工作为GUI代理的跨域知识迁移提供了有价值的见解，并为解决这一新兴领域中数据稀缺挑战提供了实用的方法。代码、数据和模型将在 https://github.com/hkust-nlp/GUIMid 提供。