摘要
arXiv:2412.19723v2 通告类型:替换
摘要:由视觉-语言模型(VLMs)驱动的图形用户界面(GUI)代理展示了类似人类的计算机控制能力。尽管它们在促进数字自动化方面具有实用价值,但仍存在一个关键瓶颈:收集用于训练的高质量轨迹数据。收集此类数据的常见做法依赖于人工监督或通过执行预定义任务生成合成数据,这两种方法要么资源密集型,要么无法保证数据质量。此外,这些方法还存在数据多样性有限以及合成数据与真实环境之间巨大差距的问题。为了解决这些挑战,我们提出了OS-Genesis,这是一种新颖的GUI数据合成管道,逆转了传统的轨迹数据收集过程。OS-Genesis 使代理先感知环境并在步骤级上进行交互,然后回顾性地推导高质量的任务以实现轨迹级探索。然后采用轨迹奖励模型来确保生成的轨迹的质量。我们证明,使用OS-Genesis训练GUI代理能够在高度具有挑战性的在线基准测试中显著提高其性能。深入分析进一步验证了OS-Genesis 的高效性及其在数据质量和多样性方面优于现有合成方法的优势。我们的代码、数据和检查点可在 https://qiushisun.github.io/OS-Genesis-Home/ 获取。