LLM2D

摘要

arXiv:2504.10127v2 通知类型: 重置摘要：图形用户界面（GUI）代理提供了跨平台的解决方案，用于自动化复杂的数字任务，具有显著的潜在能力来转变生产力工作流。然而，它们的性能通常受限于高质量轨迹数据的稀缺性。为了解决这一限制，我们建议在专门的中期训练阶段对视觉语言模型（VLMs）进行数据丰富、推理密集型任务的训练，然后研究将这些任务纳入如何促进GUI规划场景的一般化。具体而言，我们探索了一系列具有现成指令调优数据的任务，包括GUI感知、多模态推理和文字推理。通过在11个中期训练任务上进行广泛的实验，我们展示了以下几点：（1）任务的一般化证明非常有效，能够在大多数场景中显著提高性能。例如，多模态数学推理在AndroidWorld上绝对提高了6.3%。令人惊讶的是，仅基于文本的数学数据显著提高了GUI网络代理的效果，分别在WebArena上实现了5.6%的改进，在AndroidWorld上实现了5.4%的改进，这表明从文字域到视觉域的跨模态一般化效果显著；（2）与先前的假设相反，GUI感知数据（先前认为与GUI代理任务紧密相关，并广泛用于训练）对最终性能的影响相对较有限；（3）基于这些见解，我们确定了最有效的中期训练任务，并制定了优化混合数据集，分别在WebArena上实现了8.0%的绝对性能改进，在AndroidWorld上实现了12.2%的改进。我们的工作提供了关于GUI代理跨域知识转移的重要见解，并提供了解决这一新兴领域中数据稀缺挑战的一种实用方法。相关代码、数据和模型将可在 https://github.com/hkust-nlp/GUIMid 获取。